【原創】ARM平臺記憶體和cache對xenomai實時性的影響

阿新 • • 發佈：2020-11-07

[TOC] ## 1. 問題概述對ti am5728 xenomai系統latency測試時，在測試過程中發現，記憶體壓力對latency影響極大，未新增記憶體壓力下資料如下(注：文中所有測試使用預設gravity，對實時任務cpu已使用`isolcpus=1`隔離，另外文中的結論可能只對ARM平臺有效)： ```shell stress -c 16 -i 4 -d 2 --hdd-bytes 256M ``` | | user-task ltaency | kernel-task ltaency | TimerIRQ | | ---- | ---- | ---- | ---- | | 最小值 | 0.621 | -0.795 | -1.623 | | 平均值 | 3.072 | 0.970 | -0.017 | | 最大值 | ==**16.133**== | ==**12.966**== | **7.736** | 新增引數` --vm 2 --vm-bytes 128M `模擬記憶體壓力。（建立2個程序模擬記憶體壓力，不斷重複：申請記憶體大小128MB，對申請的記憶體每隔4096位元組處寫入一個字元’Z‘，然後讀取檢查是否還是’Z‘，校查後釋放，回到申請操作） ```shell stress -c 16 -i 4 -d 2 --hdd-bytes 256M --vm 2 --vm-bytes 128M ``` 新增記憶體壓力後的latency,測試10分鐘(因時間原因未測1小時)，測試資料如下： ![vm-load-all](https://wsg-blogs-pic.oss-cn-beijing.aliyuncs.com/xenomai/vm-load-all.png) | | user-task ltaency | kernel-task ltaency | TimeIRQ | | ---- | ---- | ---- | ---- | | 最小值 | 0.915 | -1.276 | -1.132 | | 平均值 | 3.451 | 0.637 |0.530 | | 最大值 | ==**30.918**== | ==**25.303**== | **8.240** | | 標準差 | 0.626 | 0.668 | 0.345 | 可以看到，新增記憶體壓力後，latency最大值是未加記憶體壓力最大值的2倍。 ## 2. stress 記憶體壓力原理 `stress`工具對記憶體壓力相關引數有： > -m, --vm N fork N個程序對記憶體malloc()/free() > --vm-bytes B 每個程序操作的記憶體大小為B bytes (預設 256MB) > --vm-stride B 每隔B位元組訪問一個位元組 (預設4096) > --vm-hang N malloc睡眠N秒後free (預設不睡眠) > --vm-keep 僅分配一次記憶體，直到程序結束時釋放這引數可用來模擬不同的壓力,`--vm-bytes`表示每次分配的記憶體大小。`--vm-stride`每隔B位元組訪問一個位元組，主要模擬cache miss的情況。`--vm-hang`指定對記憶體持有的時間，分配頻率。對於上面引數`--vm 2 --vm-bytes 128M `,表示建立2個程序模擬記憶體壓力，不斷重複：申請記憶體大小128MB，對申請的記憶體每隔4096位元組處寫入一個字元’Z‘，然後讀取檢查是否還是’Z‘，校查後釋放，回到申請操作。回顧我們的問題，其中涉及影響實時性的變數有： (1).**記憶體分配大小** (2).**latency測試過程中stress是否分配/釋放記憶體** (3).**記憶體是否使用訪問** (4).**每次記憶體訪問的步長大小** 進一步總結記憶體實時性影響因素有： - cache 影響 - cache miss率高 - 記憶體速率（頻寬） - 記憶體管理 - 記憶體分配/釋放操作 - 記憶體訪問缺頁（MMU擁塞）下面針對這幾個影響設計測試引數，進行測試排查。 ## 2. cache 因素關閉cache 可用於模擬100％快取未命中，從而測量可能由如記憶體匯流排和片外儲存器的擁塞引起的快取未命中的最壞情況的影響。 ### 2.1 未加壓 am5728 這裡不測試L1 Cache的影響，主要測試L2 cache，配置核心關閉L2 cache，重新編譯核心。 ``` System Type ---> [ ] Enable the L2x0 outer cache controller ``` 為確認L2 cahe已經關閉，使用下面的程式驗證，申請大小為`SIZE`個int的記憶體，對記憶體裡的整數加3，第一個for步長為1，第二個for步長為16(每個整數4位元組，16個64位元組，cacheline的大小剛好為64)。因為後面的for迴圈步長為16 ，在沒有cache 時，第二個for迴圈的執行時間應為第一個for的1/16，以此來驗證L2 Cache 已經關閉。開啟 L2 cache情況下前後兩個for的執行時間為2000ms:153ms（**13倍**），關閉 L2 cache後前後兩個for的執行時間為2618ms:153ms（**17倍**，大於16倍的原因是這裡使用的是同一塊記憶體，記憶體申請後沒有還沒分配實體記憶體，第一個for迴圈的時候會執行一些缺頁異常處理，所以用時稍長）。 ```c #include #include #include #define SIZE 64*1024*1024 int main(void) { struct timespec time_start,time_end; int i; unsigned long time; int *buff =malloc(SIZE * sizeof(int)); clock_gettime(CLOCK_MONOTONIC,&time_start); for (i = 0; i< SIZE; i ++) buff[i] += 3;// clock_gettime(CLOCK_MONOTONIC,&time_end); time = (time_end.tv_sec * 1000000000 + time_end.tv_nsec) - (time_start.tv_sec * 1000000000 + time_start.tv_nsec); printf("1:%ldms ",time/1000000); clock_gettime(CLOCK_MONOTONIC,&time_start); for (i = 0; i< SIZE; i += 16 ) buff[i] += 3;// clock_gettime(CLOCK_MONOTONIC,&time_end); time = (time_end.tv_sec * 1000000000 + time_end.tv_nsec) - (time_start.tv_sec * 1000000000 + time_start.tv_nsec); printf("64:%ldms\n",time/1000000); free(buff); return 0; } ``` 沒有壓力條件下，測試關閉L2 Cache前後latency情況(測試時間為10min)，資料如下： | | L2 Cache ON | L2 Cache OFF | | ----| ---- | ---- | | min | -0.879 | 2.363 | | avg | ==1.261== | ==4.174== | | max | **==8.510==** | **==13.161==** | 由資料可以看出：**關閉 L2Cache後，latency整體升高。在沒有壓力下，L2 Cahe 命中率高，提高程式碼執行效率，能夠明顯提升系統實時性，即同樣的一段程式碼，執行時間變短**。 ### 2.2 加壓（cpu/io）不對記憶體加壓，僅測試CPU運算密集型任務及IO壓力下， L2 Cache關閉與否對latency的影響。加壓引數如下： ```shell stress -c 16 -i 4 ``` 同樣測試10分鐘，資料如下： | | L2 ON | L2 OFF | | ---- | -------------- | -------------- | | min | 0.916 | 1.174 | | avg | ==4.134== | ==4.002== | | max | **==10.463==** | **==11.414==** | 結論：**CPU、IO壓力下，L2 Cache關閉與否似乎不那麼重要了** 分析： - 沒有加壓條件下，L2 cache處於空閒狀態，實時任務cache命中率高，latency 平均值所以低。當關閉L2 cache後，100％ cache未命中，平均值和最大值均有升高。 - 新增 CPU、IO壓力後，18個計算程序搶奪cpu資源，對實時任務來說，當實時任務搶佔執行時，L2 Cache已被壓力計算任務的資料填滿，對實時任務來說幾乎100%未命中。所以 CPU、IO壓力下，L2 Cache關閉與否 latency差不多。 ## 3. 記憶體管理因素經過第2節的測試，壓力條件下有無 cache的latency 幾乎相同，可以排除Cache。下面進行測試記憶體分配/釋放、記憶體訪問缺頁（MMU擁塞）對latency的影響。 ### 3.1 記憶體分配/釋放在2的基礎上新增記憶體分配釋放壓力，分別測試對大小為1M、2M、4M、8M、16M、32M、64M、128M、256M的記憶體分配釋放操作下latency的資料，每次測試3分鐘，為測試MMU擁塞，分別對分配的記憶體進行步長為'1' '16' '32' '64' '128' '256' '512' '1024' '2048' '4096'的記憶體訪問，測試指令碼如下： ```shell #!/bin/bash test_time=300 #5min base_stride=1 VM_MAXSIZE=1024 STRIDE_MAXSIZE=('1' '16' '32' '64' '128' '256' '512' '1024' '2048' '4096') trap 'killall stress' SIGKILL for((vm_size = 64;vm_size <= VM_MAXSIZE; vm_size = vm_size * 2));do for stride in ${STRIDE_MAXSIZE[@]};do stress -c 16 -i 4 -m 2 --vm-bytes ${vm_size}M --vm-stride $stride & echo "--------${vm_size}-${stride}------------" latency -p 100 -s -g ${vm_size}-${stride} -T $test_time -q killall stress >/dev/null sleep 1 stress -c 16 -i 4 -m 2 --vm-bytes ${vm_size}M --vm-stride $stride --vm-keep & echo "--------${vm_size}-${stride}-keep----------------" latency -p 100 -s -g ${vm_size}-${stride}-keep -T $test_time -q killall stress >/dev/null sleep 1 stress -c 16 -i 4 -m 2 --vm-bytes ${vm_size}M --vm-stride $stride --vm-hang 2 & echo "--------${vm_size}-${stride}-hang----------------" latency -p 100 -s -g ${vm_size}-${stride}-hang -T $test_time -q killall stress >/dev/null sleep 1 done done ``` L2 Cache開啟，對不同大小記憶體進行分配釋放時的latency資料繪圖，橫軸為記憶體壓力任務每次申請的記憶體大小，縱軸為該壓力下的latency最大值，如下： ![ ](https://wsg-blogs-pic.oss-cn-beijing.aliyuncs.com/xenomai/2d-size.png) 從上圖可以看到，兩個拐點分別為4MB,16MB ,分配/釋放的記憶體在4MB以內latency不受影響，保持正常水平，**分配釋放的記憶體大於16MB時latency達到30us以上，與問題符合**。由此可知：**普通Linux任務的記憶體分配釋放會影響實時性。** ### 3.2 MMU擁塞根據核心頁大小4K，在3.1的基礎上新增引數`–vm-stride 4096`,來使stress每次訪問記憶體都缺頁，來模擬MMU擁塞，L2 cache off 測試資料繪圖如下： ![](https://wsg-blogs-pic.oss-cn-beijing.aliyuncs.com/xenomai/2d-str4096-off.png) L2 cache on 測試資料繪圖如下： ![](https://wsg-blogs-pic.oss-cn-beijing.aliyuncs.com/xenomai/2d-str4096-on.png) MMU擁塞對實時性幾乎沒有影響。 ### 4 總結通過分離各種影響因素後測試得出，施加記憶體壓力後，實時性變差是由於記憶體的分配釋放導致，說明該平臺上執行在cpu0上的普通Linux任務對記憶體的申請釋放操作會影響執行在cpu1上的實時任務的實時性。 am5728只有兩級cache， L2 Cache 在CPU空閒時能顯著提升實時性，但CPU負載過重時導致L2 Cache頻繁換入換出，不利於實時任務Cahe命中，幾乎對實時性沒有任何幫助。更多資訊參考本部落格另一篇文章：[有利於提高xenomai 實時性的一些配置建議](https://www.cnblogs.com/wsg1100/p/1273072

【原創】ARM平臺記憶體和cache對xenomai實時性的影響

【原創】ARM平臺記憶體和cache對xenomai實時性的影響

【原創】.NET平臺機器學習元件-Infer.NET連載(一)介紹

【原創】.NET平臺機器學習元件-Infer.NET連載(二)貝葉斯分類器

【原創】android裡layout_width和width的區別

【原創】基於分散式儲存的開源系統在實時資料庫海量歷史資料儲存專案上的預研

【原創】MapReduce運行原理和過程

今日頭條文章js生成cp和as引數轉換為php和python演算法【原創】

【筆記】ARM架構和ARM晶片（三）

【筆記】ARM架構和ARM晶片（二）

RTP取樣 p-Time Linux平臺毫秒級別的延遲方法【原創】

【原創】《矩陣的史詩級玩法》連載十四：二元二次方程和圓錐曲線

【原創】《矩陣的史詩級玩法》連載二十一：用矩陣計算直線和二次貝塞爾曲線的交點

【原創】collections庫和 python的生成式生成器迭代器

【原創】可修改==不可做index/key，可下標==有index/key==可查詢：嘗試 list tuple dict set的巢狀，包括str 和 int等

【原創】技術系列之記憶體管理（三）

【Unity】多平臺自定義巨集和Scripting Define Symbols的使用

【VP9】libvpx在Windows和Linux平臺下的編譯和vp9編解碼器的命令列引數

如何確定Kafka的分割槽數、key和consumer執行緒數【原創】如何確定Kafka的分割槽數、key和consumer執行緒數

【原創】運維基礎之Ansible（1）簡介、安裝和使用

【原創】Junit4詳解二：Junit4 Runner以及test case執行順序和原始碼理解

【原創】ARM平臺記憶體和cache對xenomai實時性的影響

相關推薦