1. 程式人生 > >【轉】Linux記憶體管理(最透徹的一篇)

【轉】Linux記憶體管理(最透徹的一篇)

摘要:本章首先以應用程式開發者的角度審視Linux的程序記憶體管理,在此基礎上逐步深入到核心中討論系統實體記憶體管理和核心記憶體的使用方法。力求從外到內、水到渠成地引導網友分析Linux的記憶體管理與使用。在本章最後,我們給出一個記憶體對映的例項,幫助網友們理解核心記憶體管理與使用者記憶體管理之間的關係,希望大家最終能駕馭Linux記憶體管理。

前言

記憶體管理一向是所有作業系統書籍不惜筆墨重點討論的內容,無論市面上或是網上都充斥著大量涉及記憶體管理的教材和資料。因此,我們這裡所要寫的Linux記憶體管理採取避重就輕的策略,從理論層面就不去班門弄斧,貽笑大方了。我們最想做的和可能做到的是從開發者的角度談談對記憶體管理的理解,最終目的是把我們在核心開發中使用記憶體的經驗和對Linux記憶體管理的認識與大家共享。

當然,這其中我們也會涉及到一些諸如段頁等記憶體管理的基本理論,但我們的目的不是為了強調理論,而是為了指導理解開發中的實踐,所以僅僅點到為止,不做深究。

遵循“理論來源於實踐”的“教條”,我們先不必一下子就鑽入核心裡去看系統記憶體到底是如何管理,那樣往往會讓你陷入似懂非懂的窘境(我當年就犯了這個錯誤!)。所以最好的方式是先從外部(使用者程式設計範疇)來觀察程序如何使用記憶體,等到大家對記憶體的使用有了較直觀的認識後,再深入到核心中去學習記憶體如何被管理等理論知識。最後再通過一個例項程式設計將所講內容融會貫通。

程序與記憶體

程序如何使用記憶體?

毫無疑問,所有程序(執行的程式)都必須佔用一定數量的記憶體,它或是用來存放從磁碟載入的程式程式碼,或是存放取自使用者輸入的資料等等。不過程序對這些記憶體的管理方式因記憶體用途不一而不盡相同,有些記憶體是事先靜態分配和統一回收的,而有些卻是按需要動態分配和回收的。

對任何一個普通程序來講,它都會涉及到5種不同的資料段。稍有程式設計知識的朋友都能想到這幾個資料段中包含有“程式程式碼段”、“程式資料段”、“程式堆疊段”等。不錯,這幾種資料段都在其中,但除了以上幾種資料段之外,程序還另外包含兩種資料段。下面我們來簡單歸納一下程序對應的記憶體空間中所包含的5種不同的資料區。

程式碼段:程式碼段是用來存放可執行檔案的操作指令,也就是說是它是可執行程式在記憶體中的映象。程式碼段需要防止在執行時被非法修改,所以只准許讀取操作,而不允許寫入(修改)操作——它是不可寫的。

資料段:資料段用來存放可執行檔案中已初始化全域性變數,換句話說就是存放程式靜態分配[1]的變數和全域性變數。

BSS段[2]:BSS段包含了程式中未初始化的全域性變數,在記憶體中 bss段全部置零。

堆(heap):堆是用於存放程序執行中被動態分配的記憶體段,它的大小並不固定,可動態擴張或縮減。當程序呼叫malloc等函式分配記憶體時,新分配的記憶體就被動態新增到堆上(堆被擴張);當利用free等函式釋放記憶體時,被釋放的記憶體從堆中被剔除(堆被縮減)

:棧是使用者存放程式臨時建立的區域性變數,也就是說我們函式括弧“{}”中定義的變數(但不包括static宣告的變數,static意味著在資料段中存放變數)。除此以外,在函式被呼叫時,其引數也會被壓入發起呼叫的程序棧中,並且待到呼叫結束後,函式的返回值也會被存放回棧中。由於棧的先進先出特點,所以棧特別方便用來儲存/恢復呼叫現場。從這個意義上講,我們可以把堆疊看成一個寄存、交換臨時資料的記憶體區。

程序如何組織這些區域?

上述幾種記憶體區域中資料段、BSS和堆通常是被連續儲存的——記憶體位置上是連續的,而程式碼段和棧往往會被獨立存放。有趣的是,堆和棧兩個區域關係很“曖昧”,他們一個向下“長”(i386體系結構中棧向下、堆向上),一個向上“長”,相對而生。但你不必擔心他們會碰頭,因為他們之間間隔很大(到底大到多少,你可以從下面的例子程式計算一下),絕少有機會能碰到一起。

下圖簡要描述了程序記憶體區域的分佈:

“事實勝於雄辯”,我們用一個小例子(原形取自《User-Level Memory Management》)來展示上面所講的各種記憶體區的差別與位置。

複製程式碼

#include<stdio.h>

#include<malloc.h>

#include<unistd.h>

int bss_var;

int data_var0=1;

int main(int argc,char **argv)

{

    printf("below are addresses of types of process's mem\n");

    printf("Text location:\n");

    printf("\tAddress of main(Code Segment):%p\n",main);

    printf("____________________________\n");

    int stack_var0=2;

    printf("Stack Location:\n");

    printf("\tInitial end of stack:%p\n",&stack_var0);

    int stack_var1=3;

    printf("\tnew end of stack:%p\n",&stack_var1);

    printf("____________________________\n");

    printf("Data Location:\n");

    printf("\tAddress of data_var(Data Segment):%p\n",&data_var0);

    static int data_var1=4;

    printf("\tNew end of data_var(Data Segment):%p\n",&data_var1);

    printf("____________________________\n");

    printf("BSS Location:\n");

    printf("\tAddress of bss_var:%p\n",&bss_var);

    printf("____________________________\n");

    char *b = sbrk((ptrdiff_t)0);

    printf("Heap Location:\n");

    printf("\tInitial end of heap:%p\n",b);

    brk(b+4);

    b=sbrk((ptrdiff_t)0);

    printf("\tNew end of heap:%p\n",b);

    return 0;

 }

複製程式碼

它的結果如下:

複製程式碼

below are addresses of types of process's mem

Text location:

   Address of main(Code Segment):0x8048388

____________________________

Stack Location:

   Initial end of stack:0xbffffab4

   new end of stack:0xbffffab0

____________________________

Data Location:

   Address of data_var(Data Segment):0x8049758

   New end of data_var(Data Segment):0x804975c

____________________________

BSS Location:

   Address of bss_var:0x8049864

____________________________

Heap Location:

   Initial end of heap:0x8049868

   New end of heap:0x804986c

複製程式碼

利用size命令也可以看到程式的各段大小,比如執行size example會得到

  text    data bss dec   hex filename

  1654  280   8   1942 796 example

但這些資料是程式編譯的靜態統計,而上面顯示的是程序執行時的動態值,但兩者是對應的。

通過前面的例子,我們對程序使用的邏輯記憶體分佈已先睹為快。這部分我們就繼續進入作業系統核心看看,程序對記憶體具體是如何進行分配和管理的。

從使用者向核心看,所使用的記憶體表象形式會依次經歷“邏輯地址”——“線性地址”——“實體地址”幾種形式(關於幾種地址的解釋在前面已經講述了)。邏輯地址經段機制轉化成線性地址;線性地址又經過頁機制轉化為實體地址。(但是我們要知道Linux系統雖然保留了段機制,但是將所有程式的段地址都定死為0-4G,所以雖然邏輯地址和線性地址是兩種不同的地址空間,但在Linux中邏輯地址就等於線性地址,它們的值是一樣的)。沿著這條線索,我們所研究的主要問題也就集中在下面幾個問題。

1.     程序空間地址如何管理?

2.     程序地址如何對映到實體記憶體?

3.     實體記憶體如何被管理?

以及由上述問題引發的一些子問題。如系統虛擬地址分佈;記憶體分配介面;連續記憶體分配與非連續記憶體分配等。

程序記憶體空間

Linux作業系統採用虛擬記憶體管理技術,使得每個程序都有各自互不干涉的程序地址空間。該空間是塊大小為4G的線性虛擬空間,使用者所看到和接觸到的都是該虛擬地址,無法看到實際的實體記憶體地址。利用這種虛擬地址不但能起到保護作業系統的效果(使用者不能直接訪問實體記憶體),而且更重要的是,使用者程式可使用比實際實體記憶體更大的地址空間(具體的原因請看硬體基礎部分)。

在討論程序空間細節前,這裡先要澄清下面幾個問題:

l         第一、4G的程序地址空間被人為的分為兩個部分——使用者空間與核心空間。使用者空間從0到3G(0xC0000000),核心空間佔據3G到4G。使用者程序通常情況下只能訪問使用者空間的虛擬地址,不能訪問核心空間虛擬地址。只有使用者程序進行系統呼叫(代表使用者程序在核心態執行)等時刻可以訪問到核心空間。

l         第二、使用者空間對應程序,所以每當程序切換,使用者空間就會跟著變化;而核心空間是由核心負責對映,它並不會跟著程序改變,是固定的。核心空間地址有自己對應的頁表(init_mm.pgd),使用者程序各自有不同的頁表。

l         第三、每個程序的使用者空間都是完全獨立、互不相干的。不信的話,你可以把上面的程式同時執行10次(當然為了同時執行,讓它們在返回前一同睡眠100秒吧),你會看到10個程序佔用的線性地址一模一樣。

程序記憶體管理

程序記憶體管理的物件是程序線性地址空間上的記憶體映象,這些記憶體映象其實就是程序使用的虛擬記憶體區域(memory region)。程序虛擬空間是個32或64位的“平坦”(獨立的連續區間)地址空間(空間的具體大小取決於體系結構)。要統一管理這麼大的平坦空間可絕非易事,為了方便管理,虛擬空間被劃分為許多大小可變的(但必須是4096的倍數)記憶體區域,這些區域在程序線性地址中像停車位一樣有序排列。這些區域的劃分原則是“將訪問屬性一致的地址空間存放在一起”,所謂訪問屬性在這裡無非指的是“可讀、可寫、可執行等”。

如果你要檢視某個程序佔用的記憶體區域,可以使用命令cat /proc/<pid>/maps獲得(pid是程序號,你可以執行上面我們給出的例子——./example &;pid便會列印到螢幕),你可以發現很多類似於下面的數字資訊。

由於程式example使用了動態庫,所以除了example本身使用的的記憶體區域外,還會包含那些動態庫使用的記憶體區域(區域順序是:程式碼段、資料段、bss段)。

我們下面只抽出和example有關的資訊,除了前兩行代表的程式碼段和資料段外,最後一行是程序使用的棧空間。

-------------------------------------------------------------------------------

08048000 - 08049000 r-xp 00000000 03:03 439029                               /home/mm/src/example

08049000 - 0804a000 rw-p 00000000 03:03 439029                               /home/mm/src/example

……………

bfffe000 - c0000000 rwxp ffff000 00:00 0

----------------------------------------------------------------------------------------------------------------------

每行資料格式如下:

(記憶體區域)開始-結束 訪問許可權  偏移  主裝置號:次裝置號 i節點  檔案。

注意,你一定會發現程序空間只包含三個記憶體區域,似乎沒有上面所提到的堆、bss等,其實並非如此,程式記憶體段和程序地址空間中的記憶體區域是種模糊對應,也就是說,堆、bss、資料段(初始化過的)都在程序空間中由資料段記憶體區域表示。

在Linux核心中對應程序記憶體區域的資料結構是: vm_area_struct, 核心將每個記憶體區域作為一個單獨的記憶體物件管理,相應的操作也都一致。採用面向物件方法使VMA結構體可以代表多種型別的記憶體區域--比如記憶體對映檔案或程序的使用者空間棧等,對這些區域的操作也都不盡相同。

vm_area_strcut結構比較複雜,關於它的詳細結構請參閱相關資料。我們這裡只對它的組織方法做一點補充說明。vm_area_struct是描述程序地址空間的基本管理單元,對於一個程序來說往往需要多個記憶體區域來描述它的虛擬空間,如何關聯這些不同的記憶體區域呢?大家可能都會想到使用連結串列,的確vm_area_struct結構確實是以連結串列形式連結,不過為了方便查詢,核心又以紅黑樹(以前的核心使用平衡樹)的形式組織記憶體區域,以便降低搜尋耗時。並存的兩種組織形式,並非冗餘:連結串列用於需要遍歷全部節點的時候用,而紅黑樹適用於在地址空間中定位特定記憶體區域的時候。核心為了記憶體區域上的各種不同操作都能獲得高效能,所以同時使用了這兩種資料結構。

下圖反映了程序地址空間的管理模型:

程序的地址空間對應的描述結構是“記憶體描述符結構”,它表示程序的全部地址空間,——包含了和程序地址空間有關的全部資訊,其中當然包含程序的記憶體區域。

程序記憶體的分配與回收

建立程序fork()、程式載入execve()、對映檔案mmap()、動態記憶體分配malloc()/brk()等程序相關操作都需要分配記憶體給程序。不過這時程序申請和獲得的還不是實際記憶體,而是虛擬記憶體,準確的說是“記憶體區域”。程序對記憶體區域的分配最終都會歸結到do_mmap()函式上來(brk呼叫被單獨以系統呼叫實現,不用do_mmap()),

核心使用do_mmap()函式建立一個新的線性地址區間。但是說該函式建立了一個新VMA並不非常準確,因為如果建立的地址區間和一個已經存在的地址區間相鄰,並且它們具有相同的訪問許可權的話,那麼兩個區間將合併為一個。如果不能合併,那麼就確實需要建立一個新的VMA了。但無論哪種情況, do_mmap()函式都會將一個地址區間加入到程序的地址空間中--無論是擴充套件已存在的記憶體區域還是建立一個新的區域。

同樣,釋放一個記憶體區域應使用函式do_ummap(),它會銷燬對應的記憶體區域。

如何由虛變實!

    從上面已經看到程序所能直接操作的地址都為虛擬地址。當程序需要記憶體時,從核心獲得的僅僅是虛擬的記憶體區域,而不是實際的實體地址,程序並沒有獲得實體記憶體(物理頁面——頁的概念請大家參考硬體基礎一章),獲得的僅僅是對一個新的線性地址區間的使用權。實際的實體記憶體只有當程序真的去訪問新獲取的虛擬地址時,才會由“請求頁機制”產生“缺頁”異常,從而進入分配實際頁面的例程。

該異常是虛擬記憶體機制賴以存在的基本保證——它會告訴核心去真正為程序分配物理頁,並建立對應的頁表,這之後虛擬地址才實實在在地對映到了系統的實體記憶體上。(當然,如果頁被換出到磁碟,也會產生缺頁異常,不過這時不用再建立頁表了)

這種請求頁機制把頁面的分配推遲到不能再推遲為止,並不急於把所有的事情都一次做完(這種思想有點像設計模式中的代理模式(proxy))。之所以能這麼做是利用了記憶體訪問的“區域性性原理”,請求頁帶來的好處是節約了空閒記憶體,提高了系統的吞吐率。要想更清楚地瞭解請求頁機制,可以看看《深入理解linux核心》一書。

這裡我們需要說明在記憶體區域結構上的nopage操作。當訪問的程序虛擬記憶體並未真正分配頁面時,該操作便被呼叫來分配實際的物理頁,併為該頁建立頁表項。在最後的例子中我們會演示如何使用該方法。

系統實體記憶體管理 

雖然應用程式操作的物件是對映到實體記憶體之上的虛擬記憶體,但是處理器直接操作的卻是實體記憶體。所以當應用程式訪問一個虛擬地址時,首先必須將虛擬地址轉化成實體地址,然後處理器才能解析地址訪問請求。地址的轉換工作需要通過查詢頁表才能完成,概括地講,地址轉換需要將虛擬地址分段,使每段虛地址都作為一個索引指向頁表,而頁表項則指向下一級別的頁表或者指向最終的物理頁面。

每個程序都有自己的頁表。程序描述符的pgd域指向的就是程序的頁全域性目錄。下面我們借用《linux裝置驅動程式》中的一幅圖大致看看程序地址空間到物理頁之間的轉換關係。

     上面的過程說起來簡單,做起來難呀。因為在虛擬地址對映到頁之前必須先分配物理頁——也就是說必須先從核心中獲取空閒頁,並建立頁表。下面我們介紹一下核心管理實體記憶體的機制。

實體記憶體管理(頁管理)

Linux核心管理實體記憶體是通過分頁機制實現的,它將整個記憶體劃分成無數個4k(在i386體系結構中)大小的頁,從而分配和回收記憶體的基本單位便是記憶體頁了。利用分頁管理有助於靈活分配記憶體地址,因為分配時不必要求必須有大塊的連續記憶體[3],系統可以東一頁、西一頁的湊出所需要的記憶體供程序使用。雖然如此,但是實際上系統使用記憶體時還是傾向於分配連續的記憶體塊,因為分配連續記憶體時,頁表不需要更改,因此能降低TLB的重新整理率(頻繁重新整理會在很大程度上降低訪問速度)。

鑑於上述需求,核心分配物理頁面時為了儘量減少不連續情況,採用了“夥伴”關係來管理空閒頁面。夥伴關係分配演算法大家應該不陌生——幾乎所有作業系統方面的書都會提到,我們不去詳細說它了,如果不明白可以參看有關資料。這裡只需要大家明白Linux中空閒頁面的組織和管理利用了夥伴關係,因此空閒頁面分配時也需要遵循夥伴關係,最小單位只能是2的冪倍頁面大小。核心中分配空閒頁面的基本函式是get_free_page/get_free_pages,它們或是分配單頁或是分配指定的頁面(2、4、8…512頁)。

 注意:get_free_page是在核心中分配記憶體,不同於malloc在使用者空間中分配,malloc利用堆動態分配,實際上是呼叫brk()系統呼叫,該呼叫的作用是擴大或縮小程序堆空間(它會修改程序的brk域)。如果現有的記憶體區域不夠容納堆空間,則會以頁面大小的倍數為單位,擴張或收縮對應的記憶體區域,但brk值並非以頁面大小為倍數修改,而是按實際請求修改。因此Malloc在使用者空間分配記憶體可以以位元組為單位分配,但核心在內部仍然會是以頁為單位分配的。

   另外,需要提及的是,物理頁在系統中由頁結構struct page描述,系統中所有的頁面都儲存在陣列mem_map[]中,可以通過該陣列找到系統中的每一頁(空閒或非空閒)。而其中的空閒頁面則可由上述提到的以夥伴關係組織的空閒頁連結串列(free_area[MAX_ORDER])來索引。

文字框: 夥伴關係維護

核心記憶體使用

Slab

    所謂尺有所長,寸有所短。以頁為最小單位分配記憶體對於核心管理系統中的實體記憶體來說的確比較方便,但核心自身最常使用的記憶體卻往往是很小(遠遠小於一頁)的記憶體塊——比如存放檔案描述符、程序描述符、虛擬記憶體區域描述符等行為所需的記憶體都不足一頁。這些用來存放描述符的記憶體相比頁面而言,就好比是麵包屑與麵包。一個整頁中可以聚集多個這些小塊記憶體;而且這些小塊記憶體塊也和麵包屑一樣頻繁地生成/銷燬。

  為了滿足核心對這種小記憶體塊的需要,Linux系統採用了一種被稱為slab分配器的技術。Slab分配器的實現相當複雜,但原理不難,其核心思想就是“儲存池[4]”的運用。記憶體片段(小塊記憶體)被看作物件,當被使用完後,並不直接釋放而是被快取到“儲存池”裡,留做下次使用,這無疑避免了頻繁建立與銷燬物件所帶來的額外負載。

Slab技術不但避免了記憶體內部分片(下文將解釋)帶來的不便(引入Slab分配器的主要目的是為了減少對夥伴系統分配演算法的呼叫次數——頻繁分配和回收必然會導致記憶體碎片——難以找到大塊連續的可用記憶體),而且可以很好地利用硬體快取提高訪問速度。

    Slab並非是脫離夥伴關係而獨立存在的一種記憶體分配方式,slab仍然是建立在頁面基礎之上,換句話說,Slab將頁面(來自於夥伴關係管理的空閒頁面連結串列)撕碎成眾多小記憶體塊以供分配,slab中的物件分配和銷燬使用kmem_cache_alloc與kmem_cache_free。

Kmalloc

Slab分配器不僅僅只用來存放核心專用的結構體,它還被用來處理核心對小塊記憶體的請求。當然鑑於Slab分配器的特點,一般來說核心程式中對小於一頁的小塊記憶體的請求才通過Slab分配器提供的介面Kmalloc來完成(雖然它可分配32 到131072位元組的記憶體)。從核心記憶體分配的角度來講,kmalloc可被看成是get_free_page(s)的一個有效補充,記憶體分配粒度更靈活了。

有興趣的話,可以到/proc/slabinfo中找到核心執行現場使用的各種slab資訊統計,其中你會看到系統中所有slab的使用資訊。從資訊中可以看到系統中除了專用結構體使用的slab外,還存在大量為Kmalloc而準備的Slab(其中有些為dma準備的)。

核心非連續記憶體分配(Vmalloc)

夥伴關係也好、slab技術也好,從記憶體管理理論角度而言目的基本是一致的,它們都是為了防止“分片”,不過分片又分為外部分片和內部分片之說,所謂內部分片是說系統為了滿足一小段記憶體區(連續)的需要,不得不分配了一大區域連續記憶體給它,從而造成了空間浪費;外部分片是指系統雖有足夠的記憶體,但卻是分散的碎片,無法滿足對大塊“連續記憶體”的需求。無論何種分片都是系統有效利用記憶體的障礙。slab分配器使得一個頁面內包含的眾多小塊記憶體可獨立被分配使用,避免了內部分片,節約了空閒記憶體。夥伴關係把記憶體塊按大小分組管理,一定程度上減輕了外部分片的危害,因為頁框分配不在盲目,而是按照大小依次有序進行,不過夥伴關係只是減輕了外部分片,但並未徹底消除。你自己比劃一下多次分配頁面後,空閒記憶體的剩餘情況吧。

所以避免外部分片的最終思路還是落到了如何利用不連續的記憶體塊組合成“看起來很大的記憶體塊”——這裡的情況很類似於使用者空間分配虛擬記憶體,記憶體邏輯上連續,其實對映到並不一定連續的實體記憶體上。Linux核心借用了這個技術,允許核心程式在核心地址空間中分配虛擬地址,同樣也利用頁表(核心頁表)將虛擬地址對映到分散的記憶體頁上。以此完美地解決了核心記憶體使用中的外部分片問題。核心提供vmalloc函式分配核心虛擬記憶體,該函式不同於kmalloc,它可以分配較Kmalloc大得多的記憶體空間(可遠大於128K,但必須是頁大小的倍數),但相比Kmalloc來說,Vmalloc需要對核心虛擬地址進行重對映,必須更新核心頁表,因此分配效率上要低一些(用空間換時間)

與使用者程序相似,核心也有一個名為init_mm的mm_strcut結構來描述核心地址空間,其中頁表項pdg=swapper_pg_dir包含了系統核心空間(3G-4G)的對映關係。因此vmalloc分配核心虛擬地址必須更新核心頁表,而kmalloc或get_free_page由於分配的連續記憶體,所以不需要更新核心頁表。

文字框: 夥伴關係維護文字框: vmalloc文字框: Kmalloc

vmalloc分配的核心虛擬記憶體與kmalloc/get_free_page分配的核心虛擬記憶體位於不同的區間,不會重疊。因為核心虛擬空間被分割槽管理,各司其職。程序空間地址分佈從0到3G(其實是到PAGE_OFFSET,在0x86中它等於0xC0000000),從3G到vmalloc_start這段地址是實體記憶體對映區域(該區域中包含了核心映象、物理頁面表mem_map等等)比如我使用的系統記憶體是64M(可以用free看到),那麼(3G——3G+64M)這片記憶體就應該對映到實體記憶體,而vmalloc_start位置應在3G+64M附近(說"附近"因為是在實體記憶體對映區與vmalloc_start期間還會存在一個8M大小的gap來防止躍界),vmalloc_end的位置接近4G(說"接近"是因為最後位置系統會保留一片128k大小的區域用於專用頁面對映,還有可能會有高階記憶體對映區,這些都是細節,這裡我們不做糾纏)。 

                

                            上圖是記憶體分佈的模糊輪廓

   由get_free_page或Kmalloc函式所分配的連續記憶體都陷於物理對映區域,所以它們返回的核心虛擬地址和實際實體地址僅僅是相差一個偏移量(PAGE_OFFSET),你可以很方便的將其轉化為實體記憶體地址,同時核心也提供了virt_to_phys()函式將核心虛擬空間中的物理對映區地址轉化為實體地址。要知道,實體記憶體對映區中的地址與核心頁表是有序對應的,系統中的每個物理頁面都可以找到它對應的核心虛擬地址(在實體記憶體對映區中的)。

而vmalloc分配的地址則限於vmalloc_start與vmalloc_end之間。每一塊vmalloc分配的核心虛擬記憶體都對應一個vm_struct結構體(可別和vm_area_struct搞混,那可是程序虛擬記憶體區域的結構),不同的核心虛擬地址被4k大小的空閒區間隔,以防止越界——見下圖)。與程序虛擬地址的特性一樣,這些虛擬地址與實體記憶體沒有簡單的位移關係,必須通過核心頁表才可轉換為實體地址或物理頁。它們有可能尚未被對映,在發生缺頁時才真正分配物理頁面。

                    

這裡給出一個小程式幫助大家認清上面幾種分配函式所對應的區域。

複製程式碼

#include<linux/module.h>

#include<linux/slab.h>

#include<linux/vmalloc.h>

unsigned char *pagemem;

unsigned char *kmallocmem;

unsigned char *vmallocmem;

int init_module(void)

{

 pagemem = get_free_page(0);

 printk("<1>pagemem=%s",pagemem);

 kmallocmem = kmalloc(100,0);

 printk("<1>kmallocmem=%s",kmallocmem);

 vmallocmem = vmalloc(1000000);

 printk("<1>vmallocmem=%s",vmallocmem);

}

void cleanup_module(void)

{

 free_page(pagemem);

 kfree(kmallocmem);

 vfree(vmallocmem);

}

複製程式碼

例項

記憶體對映(mmap)是Linux作業系統的一個很大特色,它可以將系統記憶體對映到一個檔案(裝置)上,以便可以通過訪問檔案內容來達到訪問記憶體的目的。這樣做的最大好處是提高了記憶體訪問速度,並且可以利用檔案系統的介面程式設計(裝置在Linux中作為特殊檔案處理)訪問記憶體,降低了開發難度。許多裝置驅動程式便是利用記憶體對映功能將使用者空間的一段地址關聯到裝置記憶體上,無論何時,只要記憶體在分配的地址範圍內進行讀寫,實際上就是對裝置記憶體的訪問。同時對裝置檔案的訪問也等同於對記憶體區域的訪問,也就是說,通過檔案操作介面可以訪問記憶體。Linux中的X伺服器就是一個利用記憶體對映達到直接高速訪問視訊卡記憶體的例子。

熟悉檔案操作的朋友一定會知道file_operations結構中有mmap方法,在使用者執行mmap系統呼叫時,便會呼叫該方法來通過檔案訪問記憶體——不過在呼叫檔案系統mmap方法前,核心還需要處理分配記憶體區域(vma_struct)、建立頁表等工作。對於具體對映細節不作介紹了,需要強調的是,建立頁表可以採用remap_page_range方法一次建立起所有對映區的頁表,或利用vma_struct的nopage方法在缺頁時現場一頁一頁的建立頁表。第一種方法相比第二種方法簡單方便、速度快, 但是靈活性不高。一次呼叫所有頁表便定型了,不適用於那些需要現場建立頁表的場合——比如對映區需要擴充套件或下面我們例子中的情況。

我們這裡的例項希望利用記憶體對映,將系統核心中的一部分虛擬記憶體對映到使用者空間,以供應用程式讀取——你可利用它進行核心空間到使用者空間的大規模資訊傳輸。因此我們將試圖寫一個虛擬字元裝置驅動程式,通過它將系統核心空間對映到使用者空間——將核心虛擬記憶體對映到使用者虛擬地址。從上一節已經看到Linux核心空間中包含兩種虛擬地址:一種是物理和邏輯都連續的實體記憶體對映虛擬地址;另一種是邏輯連續但非物理連續的vmalloc分配的記憶體虛擬地址。我們的例子程式將演示把vmalloc分配的核心虛擬地址對映到使用者地址空間的全過程。

程式裡主要應解決兩個問題:

第一是如何將vmalloc分配的核心虛擬記憶體正確地轉化成實體地址?

因為記憶體對映先要獲得被對映的實體地址,然後才能將其對映到要求的使用者虛擬地址上。我們已經看到核心實體記憶體對映區域中的地址可以被核心函式virt_to_phys轉換成實際的實體記憶體地址,但對於vmalloc分配的核心虛擬地址無法直接轉化成實體地址,所以我們必須對這部分虛擬記憶體格外“照顧”——先將其轉化成核心實體記憶體對映區域中的地址,然後在用virt_to_phys變為實體地址。

轉化工作需要進行如下步驟:

a)         找到vmalloc虛擬記憶體對應的頁表,並尋找到對應的頁表項。

b)        獲取頁表項對應的頁面指標

c)        通過頁面得到對應的核心實體記憶體對映區域地址。

如下圖所示:

第二是當訪問vmalloc分配區時,如果發現虛擬記憶體尚未被對映到物理頁,則需要處理“缺頁異常”。因此需要我們實現記憶體區域中的nopaga操作,以能返回被對映的物理頁面指標,在我們的例項中就是返回上面過程中的核心實體記憶體對映區域中的地址。由於vmalloc分配的虛擬地址與實體地址的對應關係並非分配時就可確定,必須在缺頁現場建立頁表,因此這裡不能使用remap_page_range方法,只能用vma的nopage方法一頁一頁的建立。

程式組成

map_driver.c,它是以模組形式載入的虛擬字元驅動程式。該驅動負責將一定長的核心虛擬地址(vmalloc分配的)對映到裝置檔案上。其中主要的函式有——vaddress_to_kaddress()負責對vmalloc分配的地址進行頁表解析,以找到對應的核心物理對映地址(kmalloc分配的地址);map_nopage()負責在程序訪問一個當前並不存在的VMA頁時,尋找該地址對應的物理頁,並返回該頁的指標。

test.c 它利用上述驅動模組對應的裝置檔案在使用者空間讀取讀取核心記憶體。結果可以看到核心虛擬地址的內容(ok!),被顯示在了螢幕上。

執行步驟

編譯map_driver.c為map_driver.o模組,具體引數見Makefile

載入模組 :insmod map_driver.o

生成對應的裝置檔案

1 在/proc/devices下找到map_driver對應的裝置命和裝置號:grep mapdrv /proc/devices

2 建立裝置檔案mknod  mapfile c 254 0  (在我的系統裡裝置號為254)

    利用maptest讀取mapfile檔案,將取自核心的資訊列印到螢幕上。