网站首页 > 技术文章正文

CPU眼里的:静态、全局、临时变量

btikc 2025-01-14 10:55:51 技术文章 23 ℃ 0 评论

“静态、全局、临时变量，它们有什么区别？为什么要把变量分成这么多的类别？这么做的意义在哪里？有什么好处呢？”

提出问题

众所周知，C语言简单、容易上手，往往是编程的入门语言。是的！如果只考虑最简单的编程场景，C语言确实比较简单。

例如：定义一个：全局变量、静态变量，临时变量（也叫“栈”变量）:

int a = 1;
static int b = 2;


int main()
{
      int c = 3;
}

就语法规则而言，应该都不是问题。但如果具体到：全局变量、静态变量，临时变量之间的区别？以及它们所在的存储位置，是在初始化数据段？还是未初始化数据段时？这又岂是一句话能解释清楚的？如果能在面试中，准确的回答这些问题，无疑是非常加分的。

也许，我们并不需要绞尽脑汁的为它们百度、谷歌或用ChatGPT找到一个合理的解释。而是用CPU的视角，实际走一下程序过程，就能开云见日了。

代码分析

打开Compiler Explorer，定义一个全局变量a；再写一个简单的函数func1，并在函数里面定义一个静态变量b；最后写一个main函数，作一下函数调用，如图所示。

发现问题了吗？函数func1对应的CPU指令里面，居然对定义和初始化静态变量b，没有任何表示！

尽管，我们在函数func1里面定义了一个静态变量b，但编译器也会视而不见！似乎，这跟把静态变量b定义在函数func1外面，是完全等价的，如图所示。

如果我们打印一下它们所在的内存地址的话，你可以清楚的看到：它们的内存地址是相互临近的，之间正好是一个int类型的4字节宽度。所以，全局变量a和静态变量b，应该存储在同一块数据区域，如图所示。

所以，除了编译器对静态变量b，有作用域的限制外，静态变量b，跟全局变量a的很多属性都是相似的。

甚至，如果我们知道静态变量b的内存地址：0x404034，我们也可以通过指针，绕过编译器的限制，像全局变量一样读、写静态变量b

*(int*)0x404034 = 999;

好了，让我们再定义一个“栈”变量c，然后分别作一下变量b和c的加1运算，并分别打印出两个变量的值和内存地址，为了让效果更加明显，我最后作一下递归调用，如图所示。

如你所见，“栈”变量c的值，是固定的。由于每次函数调用，变量c都会被重新初始化为：2，然后作加1运算，所以，每次打印出来的变量c的值，都是：3。

但变量c的内存地址却不是固定的，而是在不断的变化，如图所示。

随着函数的不断调用，变量c的地址值也在不断下降。这也再次证明：“堆栈”是向低端地址生长的。

虽然每个变量c的值是相同的，但显然每个变量c都是不同的！它们分别保存在不同的内存地址上，每个变量c都属于不同的函数栈帧，如图所示。

就像广东有一个人叫张三，上海也有一个人叫张三。但显然两个张三，并不是同一个人。再看看静态变量b，如图所示。

每次输出的静态变量b的内存地址都是相同的。所以，函数func1被调用了多少次，变量b就会进行多少次加1运算。因为，它们都是在对同一个变量b操作，所以，变量b的值，就会随着函数的不断调用，而不断增加。

最后，我们再看看初始化数据和未初始化数据。先定义一个赋了初值的全局变量和一个静态变量；然后再定义几个全局变量、或者静态变量；要么不给它们赋初值，要么就赋值为：0；最后，打印一下它们的地址，如图所示。

在当前的编译环境下，int类型会占据4个字节。如果所有的变量都存储在同一个内存区域的话，它们的地址间隔应该都是4个字节。

但显然，这些变量被分割在两个内存区域。其中变量a、b被安排在一个区域，也称初始化数据段，如图所示。

如“CPU眼里的：程序运行”所说：操作系统、或运行库会在程序运行的时候，从二进制文件a.out中，加载它们的初始值。所以，编译器会把它们的值，预先存储在a.out里面。

剩下的变量c、d、e、f被安排在另一个区域，也称未初始化数据段。无论它们是否被初始化为0，还是根本就没有被初始化，都会在运行的时候，被操作系统的加载程序、或运行库，初始化为：0，如图所示。

由于编译器会在a.out文件中标识出：未初始化数据段的起始、终止地址。所以这些重复的0，并不需要保存在二进制文件a.out里面。这样，一定程度上，可以减少二进制文件a.out的大小。从而节省硬盘或flash的存储空间。

总结

全局变量和静态变量的内存地址是固定的，但临时变量的内存地址，往往不是固定的。
静态变量，除了作用域跟全局变量有所差异外，其存储原则、生命周期跟全局变量类似。
无论是全局变量还是静态变量，如果它们没有被初始化，或者被初始化为：0。都会被安置在：未初始化数据段；一定程度上，可以节省二进制文件a.out的存储空间。

热点问题

Q1：我们之前学的是：函数里面定义的静态变量，会在函数第一次运行到定义该静态变量的代码时，才会进行初始化。而不是如本书所说：在main函数运行前就完成了初始化。

A1：传统的说法：“函数里的静态变量，是在函数第一次运行时，进行初始化的”。阿布认为这个说法可能有待商榷。如你所见，我们并不能从主流的编译器中找到任何依据。当然，不排除历史的原因，一些老的编译器会设法在函数第一次运行时，再作静态变量的初始化。但显然当今主流编译器的方式，显得更加简洁、统一。

Q2：曾经遇到一个笔试题，出现了两个静态变量a：

void func(int c) {
    if(c) {
         static int a = 0;
         a++;
     } else {
          static int a = 0;
         a++;
     }
}

请问这应该如何理解？

A2：如果使用本文同样的分析方法，你会发现这个函数func对应的CPU指令，跟下面的代码是等价的：

void func(int c) {
    if(c) {
         static int a = 0;
         a++;
     } else {
          static int b = 0;
         b++;
     }
}

仅从代码的字面意思上看，它们是两个相同的变量a，但从它们的内存地址上，可以很清楚的发现，它们并不是同一个变量，仅仅只是代码层面上的名字相同而已。

Q3：为什么要把变量设计的这么复杂，这么作的好处是什么？要解决什么问题？

A3：这是一个非常好的问题！我想全局、静态、和栈变量，都是计算机存储程序数据的方法，通过这种分门别类的方式，可以用更少的内存，来保存和处理更多的数据。

例如：全局变量用来存储生命周期较长的数据，这些数据存放在进程的数据段里面，直至程序（进程）退出，生命周期才会结束，这也意味这它们将长期占据内存空间；栈变量（也叫临时变量）则正好相反，用来存储生命周期比较短的数据，随着函数的返回，生命周期就结束了，所占据的（堆栈）内存也会如数奉还。因此它们不需要长期占据（堆栈）内存，从而可以有效的节省（堆栈）内存。具体实现细节，可以参看“CPU眼里的：{函数括号}”

而静态变量的存储属性跟全局变量非常相似，不过编译器会对源代码中的静态变量作一下作用域的限制，只有在同一个文件中的函数才能访问这些静态变量，相对于全局变量，这有利于代码的模块化，便于代码的维护和解耦。

总的来说，这种设计理念还是非常经得起检验的，我们甚至可以在其他编程语言中，看到类似的概念和设计方式。

更多知识

如果喜欢阿布这种解读方式，希望更加系统学习这些编程知识的话，也可以考虑看看由阿布亲自编写，并由多位微软大佬联袂推荐的新书《CPU眼里的C/C++》

AI看不懂的编程书

￥79.2

购买