30.写时复制

储备知识

32 位模式下，Intel 设计了页目录表和页表两种结构，用来给程序员们提供分页机制。

在 Intel Volume-3 Chapter 4.3 Figure 4-4 中给出了页表和页目录表的数据结构，PDE 就是页目录表，PTE 就是页表。

大部分的操作系统使用的都是 4KB 的页框大小，Linux 0.11 也是，所以我们只看 4KB 页大小时的情况即可。

一个由程序员给出的逻辑地址，要先经过分段机制的转化变成线性地址，再经过分页机制的转化变成物理地址。

Figure 4-2 给出了线性地址到物理地址，也就是分页机制的转化过程。

这里的 PDE 就是页目录表，PTE 就是页表，刚刚说过了。

在手册接下来的 Table 4-5 和 Table 4-6 中，详细解释了页目录表和页表数据结构各字段的含义。

Table 4-5 是页目录表。

Table 4-6 是页表。

他们几乎都是一样的含义，我们就只看页表就好了，看一些比较重要的位。

31:12 表示页的起始物理地址，加上线性地址的后 12 位偏移地址，就构成了最终要访问的内存的物理地址，这个就不说了。

第 0 位是 P，表示 Present，存在位。

第 1 位是 RW，表示读写权限，0 表示只读，那么此时往这个页表示的内存范围内写数据，则不允许。

第 2 位是 US，表示用户态还是内核态，0 表示内核态，那么此时用户态的程序往这个内存范围内写数据，则不允许。

在 Linux 0.11 的 head.s 里，初次为页表设置的值如下。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
setup_paging:   
    ...    
    movl $pg0+7,_pg_dir     /* set present bit/user r/w */    
    movl $pg1+7,_pg_dir+4       /*  --------- " " --------- */    
    movl $pg2+7,_pg_dir+8       /*  --------- " " --------- */    
    movl $pg3+7,_pg_dir+12      /*  --------- " " --------- */    
    movl $pg3+4092,%edi    
    movl $0xfff007,%eax     /*  16Mb - 4096 + 7 (r/w user,p) */    
std1:  
    stosl    
    ...

后三位是 7，用二进制表示就是 111，即初始设置的 4 个页目录表和 1024 个页表，都是：

存在（1），可读写（1），用户态（1）

好了，储备知识就到这里。

如果你前面没读懂，你只需要知道，页表当中有一位是表示读\写的，而 Linux 0.11 初始化时，把它设置为了 1，表示可读写。

写时复制的本质

在调用 fork() 生成新进程时，新进程与原进程会共享同一内存区。只有当其中一个进程进行写操作时，系统才会为其另外分配内存页面。

之前在我的操作系统系列，我给过一个 Linux 0.11 进程的内存规划图。

不过我们考虑写时复制并不用这么复杂，去掉些细节就是。

原来的进程通过自己的页表占用了一定范围的物理内存空间。

调用 fork 创建新进程时，原本页表和物理地址空间里的内容，都要进行复制，因为进程的内存空间是要隔离的嘛。

但 fork 函数认为，复制物理地址空间里的内容，比较费时，所以姑且先只复制页表，物理地址空间的内容先不复制。

如果只有读操作，那就完全没有影响，复不复制物理地址空间里的内容就无所谓了，这就很赚。但如果有写操作，那就不得不把物理地址空间里的值复制一份，保证进程间的内存隔离。

有写操作时，再复制物理内存，就叫写时复制。

看看代码咋写的

有上述的现象，必然是在 fork 时，对页表做了手脚，这回知道为啥储备知识里讲页表结构了吧？

同时，只要有写操作，就会触发写时复制这个逻辑，这是咋做到的呢？答案是通过中断，具体是缺页中断。

好的，首先来看 fork。

fork 细节很多，具体可以看一个新进程的诞生（六）fork 中进程基本信息的复制和一个新进程的诞生（七）透过 fork 来看进程的内存规划，这里只看其中关键的复制页表的代码。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
int copy_page_tables(...) {    
    ...    
    // 源页表和新页表一样    
    this_page = *from_page_table;    
    ...    
    // 源页表和新页表均置为只读    
    this_page &= ~2;    
    *from_page_table = this_page;    
    ...
}

还记得知识储备当中的页表结构吧，就是把 R/W 位置 0 了。

用刚刚的 fork 图表示就是。

那么此时，再次对这块物理地址空间进行写操作时，就不允许了。

但不允许并不是真的不允许，Intel 会触发一个缺页中断，具体是 0x14 号中断，中断处理程序里边怎么处理，那就由 Linux 源码自由发挥了。

Linux 0.11 的缺页中断处理函数的开头是用汇编写的，看着太闹心了，这里我选 Linux 1.0 的代码给大家看，逻辑是一样的。

1
2
3
4
5
6
7
8
void do_page_fault(..., unsigned long error_code) {    
    ...       
    if (error_code & 1)        
        do_wp_page(error_code, address, current, user_esp);    
    else        
        do_no_page(error_code, address, current, user_esp);    
    ...
}

可以看出，根据中断异常码 error_code 的不同，有不同的逻辑。

那触发缺页中断的异常码都有哪些呢？

在 Intel Volume-3 Chapter 4.7 Figure 4-12 中给出。

可以看出，当 error_code 的第 0 位，也就是存在位为 0 时，会走 do_no_page 逻辑，其余情况，均走 do_wp_page 逻辑。

我们 fork 的时候只是将读写位变成了只读，存在位仍然是 1 没有动，所以会走 do_wp_page 逻辑。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
void do_wp_page(unsigned long error_code,unsigned long address) {    
    // 后面这一大坨计算了 address 在页表项的指针    
    un_wp_page((unsigned long *)        
        (((address>>10) & 0xffc) + (0xfffff000 &        
            *((unsigned long *) ((address>>20) &0xffc)))));
}
void un_wp_page(unsigned long * table_entry) {    
    unsigned long old_page,new_page;    
    old_page = 0xfffff000 & *table_entry;    
    // 只被引用一次，说明没有被共享，那只改下读写属性就行了    
    if (mem_map[MAP_NR(old_page)]==1) {        
        *table_entry |= 2;        
        invalidate();        
        return;    
    }    
    // 被引用多次，就需要复制页表了    
    new_page=get_free_page()；    
    mem_map[MAP_NR(old_page)]--;    
    *table_entry = new_page | 7;    
    invalidate();    
    copy_page(old_page,new_page);
}
    
// 刷新页变换高速缓冲宏函数
#define invalidate() \
    __asm__("movl %%eax,%%cr3"::"a" (0))

我用图直接说明这段代码的细节。

刚刚 fork 完一个进程，是这个样子的对吧？

这是我们对着这个物理空间范围，写一个值，就会触发上述函数。

假如是进程 2 写的。

显然此时这个物理空间被引用了大于 1 次，所以要复制页面。

1
new_page=get_free_page()；

并且更改页面只读属性为可读写。

1
*table_entry = new_page | 7;

图示就是这样。

是不是很简单。

那此时如果进程 1 再写呢？那么引用次数就等于 1 了，只需要更改下页属性即可，不用进行页面复制操作。

1
2
if (mem_map[MAP_NR(old_page)]==1)
 ...

图示就是这样。

就这么简单。

是不是从细节上看，和你原来理解的写时复制，还有点不同。

缺页中断的处理过程中，除了写时复制原理的 do_wp_page，还有个 do_no_page，是在页表项的存在位 P 为 0 时触发的。

这个和进程按需加载内存有关，如果还没加载到内存，会通过这个函数将磁盘中的数据复制到内存来，这个有时间再给大家讲。

30.写时复制

30.写时复制

储备知识

写时复制的本质

相关文章：