计算机系统应用教程网站

网站首页 > 技术文章 正文

CPU眼里的:静态、全局、临时变量

btikc 2025-01-14 10:55:51 技术文章 23 ℃ 0 评论

静态、全局、临时变量,它们有什么区别?为什么要把变量分成这么多的类别?这么做的意义在哪里?有什么好处呢?


01

提出问题

众所周知,C语言简单、容易上手,往往是编程的入门语言。是的!如果只考虑最简单的编程场景,C语言确实比较简单。

例如:定义一个:全局变量、静态变量,临时变量(也叫“栈”变量):

int a = 1;
static int b = 2;


int main()
{
      int c = 3;
}

就语法规则而言,应该都不是问题。但如果具体到:全局变量、静态变量,临时变量之间的区别?以及它们所在的存储位置,是在初始化数据段?还是未初始化数据段时?这又岂是一句话能解释清楚的?如果能在面试中,准确的回答这些问题,无疑是非常加分的。

也许,我们并不需要绞尽脑汁的为它们百度、谷歌或用ChatGPT找到一个合理的解释。而是用CPU的视角,实际走一下程序过程,就能开云见日了。


02

代码分析

打开Compiler Explorer,定义一个全局变量a;再写一个简单的函数func1,并在函数里面定义一个静态变量b;最后写一个main函数,作一下函数调用,如图所示。

发现问题了吗?函数func1对应的CPU指令里面,居然对定义和初始化静态变量b,没有任何表示!

尽管,我们在函数func1里面定义了一个静态变量b,但编译器也会视而不见!似乎,这跟把静态变量b定义在函数func1外面,是完全等价的,如图所示。

如果我们打印一下它们所在的内存地址的话,你可以清楚的看到:它们的内存地址是相互临近的,之间正好是一个int类型的4字节宽度。所以,全局变量a和静态变量b,应该存储在同一块数据区域,如图所示。

所以,除了编译器对静态变量b,有作用域的限制外,静态变量b,跟全局变量a的很多属性都是相似的。

甚至,如果我们知道静态变量b的内存地址:0x404034,我们也可以通过指针,绕过编译器的限制,像全局变量一样读、写静态变量b

*(int*)0x404034 = 999;

好了,让我们再定义一个“栈”变量c,然后分别作一下变量b和c的加1运算,并分别打印出两个变量的值和内存地址,为了让效果更加明显,我最后作一下递归调用,如图所示。

如你所见,“栈”变量c的值,是固定的。由于每次函数调用,变量c都会被重新初始化为:2,然后作加1运算,所以,每次打印出来的变量c的值,都是:3。

但变量c的内存地址却不是固定的,而是在不断的变化,如图所示。

随着函数的不断调用,变量c的地址值也在不断下降。这也再次证明:“堆栈”是向低端地址生长的。

虽然每个变量c的值是相同的,但显然每个变量c都是不同的!它们分别保存在不同的内存地址上,每个变量c都属于不同的函数栈帧,如图所示。

就像广东有一个人叫张三,上海也有一个人叫张三。但显然两个张三,并不是同一个人。再看看静态变量b,如图所示。

每次输出的静态变量b的内存地址都是相同的。所以,函数func1被调用了多少次,变量b就会进行多少次加1运算。因为,它们都是在对同一个变量b操作,所以,变量b的值,就会随着函数的不断调用,而不断增加。

最后,我们再看看初始化数据和未初始化数据。先定义一个赋了初值的全局变量和一个静态变量;然后再定义几个全局变量、或者静态变量;要么不给它们赋初值,要么就赋值为:0;最后,打印一下它们的地址,如图所示。

在当前的编译环境下,int类型会占据4个字节。如果所有的变量都存储在同一个内存区域的话,它们的地址间隔应该都是4个字节。

但显然,这些变量被分割在两个内存区域。其中变量a、b被安排在一个区域,也称初始化数据段,如图所示。


如“CPU眼里的:程序运行”所说:操作系统、或运行库会在程序运行的时候,从二进制文件a.out中,加载它们的初始值。所以,编译器会把它们的值,预先存储在a.out里面。

剩下的变量c、d、e、f被安排在另一个区域,也称未初始化数据段。无论它们是否被初始化为0,还是根本就没有被初始化,都会在运行的时候,被操作系统的加载程序、或运行库,初始化为:0,如图所示。

由于编译器会在a.out文件中标识出:未初始化数据段的起始、终止地址。所以这些重复的0,并不需要保存在二进制文件a.out里面。这样,一定程度上,可以减少二进制文件a.out的大小。从而节省硬盘或flash的存储空间。


03

总结

  1. 全局变量和静态变量的内存地址是固定的,但临时变量的内存地址,往往不是固定的。
  2. 静态变量,除了作用域跟全局变量有所差异外,其存储原则、生命周期跟全局变量类似。
  3. 无论是全局变量还是静态变量,如果它们没有被初始化,或者被初始化为:0。都会被安置在:未初始化数据段;一定程度上,可以节省二进制文件a.out的存储空间。


04

热点问题

Q1:我们之前学的是:函数里面定义的静态变量,会在函数第一次运行到定义该静态变量的代码时,才会进行初始化。而不是如本书所说:在main函数运行前就完成了初始化。

A1:传统的说法:“函数里的静态变量,是在函数第一次运行时,进行初始化的”。阿布认为这个说法可能有待商榷。如你所见,我们并不能从主流的编译器中找到任何依据。当然,不排除历史的原因,一些老的编译器会设法在函数第一次运行时,再作静态变量的初始化。但显然当今主流编译器的方式,显得更加简洁、统一。


Q2:曾经遇到一个笔试题,出现了两个静态变量a:

void func(int c) {
    if(c) {
         static int a = 0;
         a++;
     } else {
          static int a = 0;
         a++;
     }
}

请问这应该如何理解?

A2:如果使用本文同样的分析方法,你会发现这个函数func对应的CPU指令,跟下面的代码是等价的:

void func(int c) {
    if(c) {
         static int a = 0;
         a++;
     } else {
          static int b = 0;
         b++;
     }
}

仅从代码的字面意思上看,它们是两个相同的变量a,但从它们的内存地址上,可以很清楚的发现,它们并不是同一个变量,仅仅只是代码层面上的名字相同而已。


Q3:为什么要把变量设计的这么复杂,这么作的好处是什么?要解决什么问题?

A3:这是一个非常好的问题!我想全局、静态、和栈变量,都是计算机存储程序数据的方法,通过这种分门别类的方式,可以用更少的内存,来保存和处理更多的数据。

例如:全局变量用来存储生命周期较长的数据,这些数据存放在进程的数据段里面,直至程序(进程)退出,生命周期才会结束,这也意味这它们将长期占据内存空间;栈变量(也叫临时变量)则正好相反,用来存储生命周期比较短的数据,随着函数的返回,生命周期就结束了,所占据的(堆栈)内存也会如数奉还。因此它们不需要长期占据(堆栈)内存,从而可以有效的节省(堆栈)内存。具体实现细节,可以参看“CPU眼里的:{函数括号}”

而静态变量的存储属性跟全局变量非常相似,不过编译器会对源代码中的静态变量作一下作用域的限制,只有在同一个文件中的函数才能访问这些静态变量,相对于全局变量,这有利于代码的模块化,便于代码的维护和解耦。

总的来说,这种设计理念还是非常经得起检验的,我们甚至可以在其他编程语言中,看到类似的概念和设计方式。


05

更多知识

如果喜欢阿布这种解读方式,希望更加系统学习这些编程知识的话,也可以考虑看看由阿布亲自编写,并由多位微软大佬联袂推荐的新书《CPU眼里的C/C++》

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表