1. 程式人生 > 實用技巧 >Linux記憶體管理 —— 檔案系統快取和匿名頁的交換

Linux記憶體管理 —— 檔案系統快取和匿名頁的交換

檔案頁

記憶體回收,也就是系統釋放掉可以回收的記憶體,比如快取和緩衝區,就屬於可回收記憶體。它們在記憶體管理中,通常被叫做檔案頁(File-backed Page)。大部分檔案頁,都可以直接回收,以後有需要時,再從磁碟重新讀取就可以了。

髒頁

那些被應用程式修改過,並且暫時還沒寫入磁碟的資料(也就是髒頁),就得先寫入磁碟,然後才能進行記憶體釋放。

這些髒頁,一般可以通過兩種方式寫入磁碟。可以在應用程式中,通過系統呼叫 fsync ,把髒頁同步到磁碟中;也可以交給系統,由核心執行緒 pdflush 負責這些髒頁的重新整理。

檔案對映頁

除了快取和緩衝區,通過記憶體對映獲取的檔案對映頁,也是一種常見的檔案頁。它也可以被釋放掉,下次再訪問的時候,從檔案重新讀取。

匿名頁

應用程式動態分配的堆記憶體,也就是在記憶體管理中說到的匿名頁(Anonymous Page),它們很可能還要再次被訪問啊,不能直接回收,這些記憶體自然不能直接釋放。但是,如果這些記憶體在分配後很少被訪問,似乎也是一種資源浪費。

Linux Swap

Linux的 Swap 機制把這些不常訪問的記憶體先寫到磁碟中,然後釋放這些記憶體,給其他更需要的程序使用。再次訪問這些記憶體時,重新從磁碟讀入記憶體就可以了。

詳細解釋

1. swap的含義

在Linux裡swap有兩個意思:
1. 動詞:交換。記憶體和磁碟的顛簸行為。
2. 名詞:硬碟的swap分割槽。

沒有檔案背景的頁面,即匿名頁(anonymous page)

,如堆,棧,資料段等,不是以檔案形式存在,因此無法和磁碟檔案交換,但可以通過硬碟上劃分額外的swap交換分割槽或使用交換檔案進行交換。即上面wap作為名詞的意思。Swap分割槽可以將不活躍的頁交換到硬碟中,緩解記憶體緊張。

注意,即使沒有swap分割槽,也會存在swap行為,因為有檔案背景的頁面(file-backed page)也會有swap,即第1點的磁碟和記憶體之間的交換。

對於有檔案背景的頁面,程式去讀檔案時,可以通過read也可以通過mmap去讀。當你通過任何一種方式從磁碟讀檔案時,核心都會給你申請一個page cache,來快取硬碟上的內容。這樣的話,讀過一遍的資料,本程序或其他程序下次再讀的時候就直接從page cache裡去拿,就很快了,提升系統的整體效能。因此使用者的read/write實際上是跟page cache的相互拷貝。
而使用者的mmap則會將一段虛擬地址(3G)以下對映到page cache上,這樣的話,使用者就可以通過讀寫這段虛擬地址來修改檔案內容,省去了核心和使用者之間的拷貝。

所以檔案對於使用者程式來講其實只是記憶體,page cache就是磁碟中檔案的一個副本。可以通過 “echo 3 > /proc/sys/vm/drop_cache” 來清cache。清掉之後,程序第一次讀檔案就會變慢。

通過free命令可以看到當前page cache佔用記憶體的大小,free命令中會列印buffers和cached(有的版本free命令將二者放到一起了)。通過檔案系統來訪問檔案(掛載檔案系統,通過檔名開啟檔案)產生的快取就由cached記錄,而直接操作裸盤(開啟/dev/sda裝置去讀寫)產生的快取就由buffers記錄

root@jchen:~# free
             total         used         free       shared      buffers
Mem:        254316        68568       185748            0         6676
-/+ buffers:              61892       192424
Swap:            0            0            0

實際上檔案系統本身再讀寫檔案就是操作裸分割槽的方式,使用者態也可以直接操作裸盤,像dd命令操作一個裝置名也是直接訪問裸分割槽。
那麼,通過檔案系統讀寫的時候,就會既有cached又有buffers。從圖中可以看到,檔名等元資料和檔案系統相關,是進cached,
實際的資料快取還是在buffers。例如,read一個檔案(如ext4檔案系統)的時候,如果檔案cache命中了,就不用走到ext4層,從vfs層就返回了。

當然,還可以在open的時候加上O_DIRECT標記,做直接IO,就連buffers都不進了,直接讀寫磁碟。
free命令的第二行列印即是將buffers/cache作為可用記憶體統計到used和free的列。

2. 頁面回收(reclaim)

2.1 回收時機

有檔案背景的資料實際上就是page cache,但page cache不能無限增加,不能說慢慢的所有檔案都快取到記憶體了。肯定要有一個機制,讓不常用的檔案資料從page cache刷出去。核心中有一個水位控制的機制,在系統記憶體不夠用的時候,會觸發頁面回收。

對於沒有檔案背景的頁面即匿名頁,比如堆、棧、資料段,如果沒有swap分割槽,不能與磁碟交換,就要常駐記憶體了。這裡需要特殊說明一下資料段,資料段實際上在磁碟檔案裡,如果一個程式的全域性變數的某一頁的資料都還沒有被修改過,就沒必要產生匿名頁,而一旦被修改了,就變成匿名頁了,因為你不能回寫磁碟啊,不能下次重新執行程式的時候變數初始值變了……。
但是常駐記憶體的話,就會吃記憶體,可以通過給硬碟搞一個swap分割槽或硬碟中建立一個交換檔案(swapfile)讓匿名頁也能交換到磁碟上。可認為是為匿名頁偽造的檔案背景。swap分割槽或swap檔案實際上最終是到達了增大記憶體的效果。當然,如果頻繁交換的話,被交換出去的資料的訪問就會慢一些,因為要有IO操作了。

無論是有檔案背景的頁還是匿名頁,交換(這裡指換出)的時機有兩個:

  1. 核心通過kswapd核心執行緒慢慢回收,回收的時機由水位控制。
  2. 人為地主動地進行drop_cache。由於第1點要等到記憶體不足的時候才swap,可以通過這種方式主動發起回收。

核心中有個CONFIG_SWAP選項,可以控制匿名頁的交換,如果關掉這個選項,就不能使用swap分割槽和交換檔案了。但有檔案背景的頁本來就在磁盤裡,因此仍可以交換,不受該選項影響。也可以在開了CONFIG_SWAP的情況下,通過swapoff命令,將匿名頁的swap功能關掉(如果此時swap分割槽裡有內容,則會先換入),相應的使用swapon命令重新開啟匿名頁的swap功能。

2.2 水位(watermark)控制

核心中有三個水位

  • low:當剩餘記憶體慢慢減少,觸到這個水位時,就會觸發kswapd執行緒的記憶體回收。
  • min:如果剩餘記憶體減少到觸及這個水位,可認為記憶體嚴重不足,當前程序就會被堵住,kernel會直接在這個程序的程序上下文裡面做記憶體回收(direct reclaim)。
  • high: 進行記憶體回收時,記憶體慢慢增加,觸到這個水位時,就停止回收。

由於每個ZONE是分別管理各自記憶體的,因此每個ZONE都有這三個水位。

swapness:
記憶體回收的過程就相應的會有page cache向磁碟或匿名頁向swap分割槽回寫的過程。回收的時候,是回收有檔案背景的頁還是匿名頁呢,都會回收,但可通過/proc/sys/vm/swapness來控制讓誰回收多一點點。這個值比較大時,就回收匿名頁多一點點,比較小就反之。
所以swapness反映了是否積極地使用swap空間,而將swapness=0則意味著不再交換匿名頁,除非當記憶體不足(free and file-backed pages < high watermark in a zone)的情況下才使用swap空間(這裡的意思是,記憶體觸到low之後就發起回收,直到記憶體回到high水位停止,但如果回收完file-backed頁面都到不了high,就得開始回收匿名頁了,這段時間內即使swapness=0也出現了回收匿名頁的情況)。
另外需要注意,/proc/sys/vm/swapness是控制全域性的swap特性的。cgroup的swapness優先順序高些,如果一個cgroup的swapness關掉,全域性的沒關,那麼這個cgroup裡的程序的swap就是關掉的。也就是說,全域性的swapness是控制不在cgroup裡面的程序的swap特性的。

回收的過程是依據LRU,即最近最少使用的頁會被回收,Linux核心一直在評估哪些是LRU的頁面即最不活躍的頁面。

root@none:~# cat /proc/meminfo
MemTotal:         254316 kB
MemFree:          185748 kB
Buffers:            6676 kB
Cached:            22716 kB
SwapCached:            0 kB
Active:            25472 kB   <----
Inactive:          23164 kB   <----
Active(anon):      19684 kB   <----
Inactive(anon):      456 kB   <----
Active(file):       5788 kB   <----
Inactive(file):    22708 kB   <----
Unevictable:           0 kB
Mlocked:               0 kB
SwapTotal:             0 kB
SwapFree:              0 kB
Dirty:                 0 kB
Writeback:             0 kB
AnonPages:         19272 kB
…… ……

這裡cat /proc/meminfo看到的active和inactive的記憶體就是指lru演算法裡面去評估的一個頁面的使用情況(有沒有被訪問過),inactive的頁面中最inactive的頁面最先被回收。如果inactive的頁都回收了但記憶體仍然不夠,也會從active的頁中回收相對最不活躍的頁面。

所以我們就知道,如果lowmem被使用殆盡,觸及low或min水位,核心的普通kmalloc就申請不到記憶體了,就會觸發cache/buffers的回收和匿名頁swap,再不行就OOM了。

注意sync和swap的區別哦。sync是回寫髒頁,即page cache被修改後與磁碟原檔案內容不同步的頁,回寫完後記憶體也不會回收,回收還是要等到kswapd或direct reclaim。程序開啟並使用一個檔案後呼叫close(),是不會回寫髒頁的,要顯示地呼叫sync()/fsync()。

再說一下tmpfs,tmpfs是存放臨時檔案用的,還用於linux的posix和sysv共享記憶體,共享記憶體這種程序通訊方式底層就是tmpfs。它其實是沒有檔案背景的,因此如果有swap,就交換到swap分割槽,沒有就常駐記憶體。但是在統計記憶體的時候,是把tmpfs佔的記憶體統計到page cache的,這裡就有點繞。所以有時你在drop_cache後發現cache/buffers仍然很大,可能就是因為tmpfs的記憶體無法回收。
另外對於核心空間,核心的記憶體,如程式碼、資料、申請的記憶體,一般是不能被回收的。核心產生的檔案cache、一些資料結構如dentry和inode等充當快取的記憶體這些是可以回收的。

如何計算水位
/proc/sys/vm/min_free_kbytes是一個使用者可配置的值,預設值是根據每個lowmem zone的記憶體大小算出來的(不是隨著記憶體大小線性增長的)。這個值就決定了min的值,然後根據min算出來low和high水位的值。結果就是high>low>min。
在/proc/zoneinfo中可以看到每個zone的水位情況。具體計算方法見init_per_zone_wmark_min(void)函式。

比較特殊的是highmem,highmem的水位不是根據min_free_kbytes計算,而是將其min設定為一個很小值,因為低水位是為了給緊急記憶體使用(如處理OOM也要使用記憶體),而緊急記憶體(__GFP_HIGH和PF_MEMALLOC)的分配不會在highmem上進行,因此不用預留太多。low和high仍然和其他zone一樣由min計算得出,因為highmem仍有記憶體回收機制。

在kmalloc的時候加上PF_MEMALLOC標記就可以忽略記憶體管理的水位限制分配記憶體。當然,核心關鍵程式碼會這樣用,你自己的程式碼就不要加這個標記了。

/proc/sys/vm/lowmem_reserve_ratio 可以對低端記憶體做進一步保護。我們知道越低端記憶體越珍貴,lowmem_reserve_ratio可以讓kernel申請記憶體的時候不至於出現低端記憶體快用完了而高階記憶體還有可用的情況。它實際上是在watermark的基礎上又預留出一段記憶體:在因為申請highmem得不到記憶體而轉為向lowmem申請的情況下,lowmem的min就會變得嚴格,可能會讓高階記憶體先嚐試記憶體回收在分配記憶體。

3. 髒頁的回寫

上面提到了要注意區別sync和swap,這裡也講一下。sync是用來回寫髒頁的,髒頁不能在記憶體中呆的太久,因為如果突然斷電沒有寫到硬碟的髒資料就丟了,另一方面如果攢了很多一起寫回也會明顯佔用CPU時間。

控制髒頁何時寫回:
下面這些變數是整個系統的,見kernel/sysctl.c中的定義:

static struct ctl_table vm_table[] = {
    ……
};

dirty_ratio: 一個寫磁碟的程序所產生的髒頁到達這個比例時,這個程序自己就會去回寫髒頁。
dirty_expire_centisecs: 髒頁的到期時間,或理解為老化時間,單位是1/100s,核心中的flusher thread會檢查駐留記憶體的時間超過dirty_expire_centisecs的髒頁,超過的就回寫。
dirty_writeback_centisecs: 核心的flusher thread週期性被喚醒(wakeup_flusher_threads())的時間間隔,每次被喚醒都會去檢查是否有髒頁老化了。如果將這個值置為0,則flusher執行緒就完全不會被喚醒了。
dirty_background_ratio: 如果髒頁的數量超過這個比例時,flusher執行緒就會啟動髒頁回寫。

因此可以看出,髒頁回寫的時機由時間(dirty_expire_centisecs/dirty_writeback_centisecs)和空間(dirty_ratio/dirty_background_ratio)兩方面共同控制:

  1. 即使只有一個髒頁,那如果它超時了,也會被寫回。防止髒頁在記憶體駐留太久。dirty_expire_centisecs這個值預設是3000,即30s,可以將其設定得短一些,這樣掉電後丟失的資料會更少,但磁碟寫操作也更密集。
  2. 不能有太多的髒頁,否則會給磁碟IO造成很大壓力,例如在記憶體不夠做記憶體回收時,還要先回寫髒頁,也會明顯耗時。

需要注意的是,在達到dirty_background_ratio後,flusher執行緒(名為“[flush-devname]”)開始回寫,但由於寫磁碟速度慢,如果此時應用程序還在不停地寫磁碟,flusher執行緒回寫沒那麼快,那麼就會導致程序的髒頁達到dirty_ratio,這時這個程序就會去回寫髒頁而導致write被堵住。也就是說dirty_background_ratio通常是比dirty_ratio小的。

髒頁都是指有檔案背景的頁面,匿名頁不會存在髒頁。從/proc/meminfo的’Dirty’一行可以看到當前系統的髒頁有多少,用sync命令可以刷掉。

補充:zRAM機制

不用swap分割槽,也可以用zRAM機制來緩解記憶體緊張: 從記憶體裡拿出一段記憶體空間(compressed block),作為交換空間模擬硬碟的交換分割槽,用來交換匿名頁,並且讓kernel看到的實體記憶體大小不包括這段記憶體。而這段交換空間自帶透明壓縮功能,即交換到這塊zRAM分割槽時,Linux會自動將這塊匿名頁壓縮存放。系統訪問這塊頁面的內容時,產生page fault後從交換分割槽去拿,這時Linux給你透明解壓再交換出來。
使用zRAM的好處,就是訪存比訪問硬碟或flash的速度提高很多,且不用考慮壽命問題,並且由於這段記憶體是壓縮後儲存的,因此可以存更多的資料,雖然佔用了一段記憶體,但實際可以存更多的資料,也達到了增加記憶體的效果。缺點就是壓縮要佔用CPU時間。

Android裡面普遍使用了zRAM技術,由於zRAM犧牲了CPU時間,所以交換次數還是越少越好。像Android和windows,記憶體越大越好,因為發生交換的機率就小。這樣兩個程序相互切換(如微博和微信)時就會變得流暢,因為記憶體足夠的話,後臺程序無需被換進swap分割槽或被OOM殺掉。當然如果你只打打電話,就沒必要大記憶體啦。