Linux 髒資料回刷引數與調優

阿新 • • 發佈：2020-04-08

## 簡介我們知道，Linux用cache/buffer快取資料，且有個回刷任務在**適當時候**把髒資料回刷到儲存介質中。什麼是適當的時候？換句話說，什麼時候觸發回刷？是髒資料達到多少閾值還是定時觸發，或者兩者都有？不同場景對觸發回刷的時機的需求也不一樣，**對IO回刷觸發時機的選擇，是IO效能優化的一個重要方法**。 Linux核心在```/proc/sys/vm```中有透出數個配置檔案，可以對觸發回刷的時機進行調整。核心的回刷程序是怎麼運作的呢？這數個配置檔案有什麼作用呢？ ## 配置概述在```/proc/sys/vm```中有以下檔案與回刷髒資料密切相關： | 配置檔案 | 功能 | 預設值 | | :---: | :---: | :---: | | dirty_background_ratio | 觸發回刷的髒資料佔可用記憶體的百分比 | 0 | | dirty_background_bytes | 觸發回刷的髒資料量 | 10 | | dirty_bytes | 觸發同步寫的髒資料量 | 0 | | dirty_ratio | 觸發同步寫的髒資料佔可用記憶體的百分比 | 20 | | dirty_expire_centisecs | 髒資料超時回刷時間（單位：1/100s） | 3000 | | dirty_writeback_centisecs | 回刷程序定時喚醒時間（單位：1/100s） | 500 | 對上述的配置檔案，有幾點要補充的： 1. XXX_ratio 和 XXX_bytes 是同一個配置屬性的不同計算方法，**優先順序 XXX_bytes > XXX_ratio** 2. **可用記憶體**並不是系統所有記憶體，而是**free pages + reclaimable pages** 3. **髒資料超時**表示記憶體中資料標識髒一定時間後，下次回刷程序工作時就必須回刷 4. 回刷程序既會定時喚醒，也會在髒資料過多時被動喚醒。 5. dirty_background_XXX與dirty_XXX的差別在於前者只是喚醒回刷程序，此時應用依然可以非同步寫資料到Cache，當髒資料比例繼續增加，觸發dirty_XXX的條件，不再支援應用非同步寫。關於同步與非同步IO的說明，可以看另一篇部落格[《Linux IO模型》](https://www.cnblogs.com/gmpy/p/12652578.html) 更完整的功能介紹，可以看核心文件```Documentation/sysctl/vm.txt```。 ## 配置示例單純的配置說明畢竟太抽象。結合網上的分享，我們看看在不同場景下，該如何配置？ ### 場景1：儘可能不丟資料有些產品形態的資料非常重要，例如行車記錄儀。在滿足效能要求的情況下，要做到儘可能不丟失資料。 ``` /* 此配置不一定適合您的產品，請根據您的實際情況配置 */ dirty_background_ratio = 5 dirty_ratio = 10 dirty_writeback_centisecs = 50 dirty_expire_centisecs = 100 ``` 這樣的配置有以下特點： 1. 當髒資料達到可用記憶體的5%時喚醒回刷程序 2. 當髒資料達到可用記憶體的10%時，應用每一筆資料都必須同步等待 3. 每隔500ms喚醒一次回刷程序 4. 記憶體中髒資料存在時間超過1s則在下一次喚醒時回刷由於發生交通事故時，行車記錄儀隨時可能斷電，事故前1~2s的資料尤為關鍵。因此在保證效能滿足不丟幀的情況下，儘可能回刷資料。此配置通過**減少Cache**，**更加頻繁喚醒回刷程序**的方式，儘可能讓資料回刷。此時的效能理論上會比每筆資料都```O_SYNC```略高，比預設配置效能低，相當於用效能換資料安全。 ### 場景2：追求更高效能有些產品形態不太可能會掉電，例如伺服器。此時不需要考慮資料安全問題，要做到儘可能高的IO效能。 ``` /* 此配置不一定適合您的產品，請根據您的實際情況配置 */ dirty_background_ratio = 50 dirty_ratio = 80 dirty_writeback_centisecs = 2000 dirty_expire_centisecs = 12000 ``` 這樣的配置有以下特點： 1. 當髒資料達到可用記憶體的50%時喚醒回刷程序 2. 當髒資料達到可用記憶體的80%時，應用每一筆資料都必須同步等待 3. 每隔20s喚醒一次回刷程序 4. 記憶體中髒資料存在時間超過120s則在下一次喚醒時回刷與場景1相比，場景2的配置通過 **增大Cache**，**延遲迴刷喚醒時間**來儘可能快取更多資料，進而實現提高效能 ### 場景3：突然的IO峰值拖慢整體效能什麼是IO峰值？突然間大量的資料寫入，導致瞬間IO壓力飆升，導致瞬間IO效能狂跌，對行車記錄儀而言，有可能觸發視訊丟幀。 ``` /* 此配置不一定適合您的產品，請根據您的實際情況配置 */ dirty_background_ratio = 5 dirty_ratio = 80 dirty_writeback_centisecs = 500 dirty_expire_centisecs = 3000 ``` 這樣的配置有以下特點： 1. 當髒資料達到可用記憶體的5%時喚醒回刷程序 2. 當髒資料達到可用記憶體的80%時，應用每一筆資料都必須同步等待 3. 每隔5s喚醒一次回刷程序 4. 記憶體中髒資料存在時間超過30s則在下一次喚醒時回刷這樣的配置，通過 **增大Cache總容量**，**更加頻繁喚醒回刷**的方式，解決IO峰值的問題，此時能保證髒資料比例保持在一個比較低的水平，當突然出現峰值，也有足夠的Cache來快取資料。 ## 核心程式碼實現知其然，亦要知其所以然。翻看核心程式碼，尋找配置的實現，細細品味不同配置的細微差別。基於核心程式碼版本：5.5.15 ### sysctl檔案在 *kernel/sysctl.c*中列出了所有的配置檔案的資訊。 ``` static struct ctl_table vm_table[] = { ... { .procname = "dirty_background_ratio", .data = &dirty_background_ratio, .maxlen = sizeof(dirty_background_ratio), .mode = 0644, .proc_handler = dirty_background_ratio_handler, .extra1 = &zero, .extra2 = &one_hundred, }, { .procname = "dirty_ratio", .data = &vm_dirty_ratio, .maxlen = sizeof(vm_dirty_ratio), .mode = 0644, .proc_handler = dirty_ratio_handler, .extra1 = &zero, .extra2 = &one_hundred, }, { .procname = "dirty_writeback_centisecs", .data = &dirty_writeback_interval, .maxlen = sizeof(dirty_writeback_interval), .mode = 0644, .proc_handler = dirty_writeback_centisecs_handler, }, } ``` 為了避免文章篇幅過大，我只列出了關鍵的3個配置項且不深入程式碼如何實現。我們只需要知道，我們修改```/proc/sys/vm```配置項的資訊，實際上修改了對應的某個全域性變數的值。每個全域性變數都有預設值，追溯這些全域性變數的定義 ```

int dirty_background_ratio = 10; unsigned long dirty_background_bytes; int vm_dirty_ratio = 20; unsigned long vm_dirty_bytes; unsigned int dirty_writeback_interval = 5 * 100; /* centiseconds */ unsigned int dirty_expire_interval = 30 * 100; /* centiseconds */ ``` 總結如下： | 配置項名 | 對應原始碼變數名 | 預設值 | | :---: | :---: | :---: | | dirty_background_bytes | dirty_background_bytes | 0 | | dirty_background_ratio | dirty_background_ratio | 10 | | dirty_bytes | vm_dirty_bytes | 0 | | dirty_ratio | vm_dirty_ratio | 20 | | dirty_writeback_centisecs | dirty_writeback_interval | 500 | | dirty_expire_centisecs | dirty_expire_interval | 3000 | ### 回刷程序通過```ps aux```，我們總能看到**writeback**的核心程序 ``` $ ps aux | grep "writeback" root 40 0.0 0.0 0 0 ? I< 06:44 0:00 [writeback] ``` 這實際上是一個工作佇列對應的程序，在```default_bdi_init()```中建立。 ``` /* bdi_wq serves all asynchronous writeback tasks */ struct workqueue_struct *bdi_wq; static int __init default_bdi_init(void) { ... bdi_wq = alloc_workqueue("writeback", WQ_MEM_RECLAIM | WQ_FREEZABLE | WQ_UNBOUND | WQ_SYSFS, 0); ... } ``` 回刷程序的核心是函式```wb_workfn()```，通過函式```wb_init()```繫結。 ``` static int wb_init(struct bdi_writeback *wb, struct backing_dev_info *bdi int blkcg_id, gfp_t gfp) { ... INIT_DELAYED_WORK(&wb->

dwork, wb_workfn); ... } ``` 喚醒回刷程序的操作是這樣的 ``` static void wb_wakeup(struct bdi_writeback *wb) { spin_lock_bh(&wb->work_lock); if (test_bit(WB_registered, &wb->state)) mod_delayed_work(bdi_wq, &wb->dwork, 0); spin_unlock_bh(&wb->work_lock); } ``` 表示喚醒的回刷任務在工作佇列```writeback```中執行，這樣，就把工作佇列和回刷工作綁定了。我們暫時不探討每次會回收了什麼，關注點在於相關配置項怎麼起作用。在```wb_workfn()```的最後，有這樣的程式碼： ``` void wb_workfn(struct work_struct *work) { ... /* 如果還有需要回收的記憶體，再次喚醒 */ if (!list_empty(&wb->

work_list)) wb_wakeup(wb); /* 如果還有髒資料，延遲喚醒 */ else if (wb_has_dirty_io(wb) && dirty_writeback_interval) wb_wakeup_delayed(wb); } static void wb_wakeup(struct bdi_writeback *wb) { spin_lock_bh(&wb->work_lock); if (test_bit(WB_registered, &wb->state)) mod_delayed_work(bdi_wq, &wb->dwork, 0); spin_unlock_bh(&wb->work_lock); } void wb_wakeup_delayed(struct bdi_writeback *wb) { unsigned long timeout; /* 在這裡使用dirty_writeback_interval，設定下次喚醒時間 */ timeout = msecs_to_jiffies(dirty_writeback_interval * 10); spin_lock_bh(&wb->work_lock); if (test_bit(WB_registered, &wb->state)) queue_delayed_work(bdi_wq, &wb->dwork, timeout); spin_unlock_bh(&wb->work_lock); } ``` 根據```kernel/sysctl.c```的內容，我們知道```dirty_writeback_centisecs```配置項對應的全域性變數是```dirty_writeback_interval``` 可以看到，```dirty_writeback_interval```在```wb_wakeup_delayed()```中起作用，在```wb_workfn()```的最後根據```dirty_writeback_interval```設定下一次喚醒時間。我們還發現通過```msecs_to_jiffies(XXX * 10)```來換算單位，表示```dirty_writeback_interval```乘以10之後的計量單位才是毫秒**msecs**。怪不得說```dirty_writeback_centisecs```的單位是**1/100**秒。 ### 髒資料量髒資料量通過```dirty_background_XXX```和```dirty_XXX```表示，他們又是怎麼工作的呢？根據```kernel/sysctl.c```的內容，我們知道```dirty_background_XXX```配置項對應的全域性變數是```dirty_background_XXX```，```dirty_XXX```對於的全域性變數是``` vm_dirty_XXX```。我們把目光聚焦到函式```domain_dirty_limits()```，通過這個函式換算髒資料閾值。 ``` static void domain_dirty_limits(struct dirty_throttle_control *dtc) { ... unsigned long bytes = vm_dirty_bytes; unsigned long bg_bytes = dirty_background_bytes; /* convert ratios to per-PAGE_SIZE for higher precision */ unsigned long ratio = (vm_dirty_ratio * PAGE_SIZE) / 100; unsigned long bg_ratio = (dirty_background_ratio * PAGE_SIZE) / 100; ... if (bytes) thresh = DIV_ROUND_UP(bytes, PAGE_SIZE); else thresh = (ratio * available_memory) / PAGE_SIZE; if (bg_bytes) bg_thresh = DIV_ROUND_UP(bg_bytes, PAGE_SIZE); else bg_thresh = (bg_ratio * available_memory) / PAGE_SIZE; if (bg_thresh >= thresh) bg_thresh = thresh / 2; dtc->thresh = thresh; dtc->bg_thresh = bg_thresh; } ``` 上面的程式碼體現瞭如下的特徵 1. dirty_background_bytes/dirty_bytes的優先順序高於dirty_background_ratio/dirty_ratio 2. dirty_background_bytes/ratio和dirty_bytes/ratio最終會統一換算成**頁**做計量單位 3. dirty_background_bytes/dirty_bytes做進一除法，表示如果值為4097Bytes，換算後是2頁 4. dirty_background_ratio/dirty_ratio相乘的基數是**available_memory**，表示可用記憶體 5. 如果dirty_background_XXX大於dirty_XXX，則取dirty_XXX的一半可用記憶體是怎麼計算來的呢？ ``` static unsigned long global_dirtyable_memory(void) { unsigned long x; x = global_zone_page_state(NR_FREE_PAGES); /* * Pages reserved for the kernel should not be considered * dirtyable, to prevent a situation where reclaim has to * clean pages in order to balance the zones. */ x += global_node_page_state(NR_INACTIVE_FILE); x += global_node_page_state(NR_ACTIVE_FILE); if (!vm_highmem_is_dirtyable) x -= highmem_dirtyable_memory(x); return x + 1; /* Ensure that we never return 0 */ } ``` 所以， ``` 可用記憶體 = 空閒頁 - 核心預留頁 + 活動檔案頁 + 非活動檔案頁 ( - 高階記憶體) ``` 髒資料達到閾值後是怎麼觸發回刷的呢？我們再看```balance_dirty_pages()```函式 ``` static void balance_dirty_pages(struct bdi_writeback *wb, unsigned long pages_dirtied) { unsigned long nr_reclaimable; /* = file_dirty + unstable_nfs */ ... /* * Unstable writes are a feature of certain networked * filesystems (i.e. NFS) in which data may have been * written to the server's write cache, but has not yet * been flushed to permanent storage. */ nr_reclaimable = global_node_page_state(NR_FILE_DIRTY) + global_node_page_state(NR_UNSTABLE_NFS); ... if (nr_reclaimable > gdtc->bg_thresh) wb_start_background_writeback(wb); } void wb_start_background_writeback(struct bdi_writeback *wb) { wb_wakeup(wb); } ``` 總結下有以下特徵： 1. 可回收記憶體 = 檔案髒頁 + 檔案系統不穩定頁(NFS) 2. 可回收記憶體達到```dirty_background_XXX```計算的閾值，只是喚醒髒資料回刷工作後直接返回，並不會等待回收完成，最終回收工作還是看```writeback```程序

Linux 髒資料回刷引數與調優

Linux 髒資料回刷引數與調優

linux 性能測試與調優

MySQL的常見儲存引擎介紹與引數設定調優（轉載）

Linux 記憶體子系統常見引數以及調優

隨機森林引數理解與調優

Python資料探勘與機器學習_通訊信用風險評估實戰(4)——模型訓練與調優

linux中資料型別的表示與思考

FineUIMvc隨筆（4）自定義回發引數與自定義回發

Linux學習——資料流重定向與管道

JVM 基本引數使用與調優及JVM分析工具初探

XGBoost基本引數與調參

[JVM教程與調優] 什麼是JVM執行時引數？

RandomForest 隨機森林演算法與模型引數的調優

visualvm工具遠端對linux服務斷的JVM虛擬機器進行監控與調優的方法

MySQL性能診斷與調優

MySQL寫壓力性能監控與調優

JVM回收器與調優

Java虛擬機性能監控與調優實戰

Tomcat性能監控與調優

《JVM》（五）內存溢出異常與調優

Linux 髒資料回刷引數與調優

相關推薦