理解Linux CPU負載和 CPU使用率

阿新 • • 發佈：2019-07-02

CPU負載和 CPU使用率

這兩個從一定程度上都可以反映一臺機器的繁忙程度.

cpu使用率反映的是當前cpu的繁忙程度，忽高忽低的原因在於佔用cpu處理時間的程序可能處於io等待狀態但卻還未釋放進入wait。

平均負載（load average）是指某段時間內佔用cpu時間的程序和等待cpu時間的程序數，這裡等待cpu時間的程序是指等待被喚醒的程序，不包括處於wait狀態程序。

以上分析可以看出，一臺機器很有可能處於低cpu使用率高負載的情況，因此看機器的繁忙程度應該結合兩者，從實際的使用情況觀察，自己的一臺雙核志強2.8GHZ，2G記憶體的機器在平均負載到50左右，cpu使用率才接近100%（應用有不少io操作），這種情況下應用還算流暢，實際訪問延遲不是很高。因此在cpu還空閒的情況下，如何提高io響應是減少負載的關鍵，很多人認為負載到幾十了機器就非常繁忙了，我倒覺得如果這個時候cpu使用率比較低，則負載高可能不能很好說明問題，一旦cpu處理的程序處理完後，那些等待的程序也能立刻得到響應，這種情況下應該優化io讀寫速度。真到cpu使用率一直90%以上，即使平均負載只有個位數（比如某一個程序一直在運算），那機器其實也已經繁忙了~

其實，在前面的文章中，也有寫到cpu使用率低負載高，原因分析 cpu使用率低，但是load很高，load很高的可能是IO

CPU負載的一個類比

判斷系統負荷是否過重，必須理解load average的真正含義。下面，我根據"Understanding Linux CPU Load"這篇文章，嘗試用最通俗的語言，解釋這個問題。
首先，假設最簡單的情況，你的電腦只有一個CPU，所有的運算都必須由這個CPU來完成。
那麼，我們不妨把這個CPU想象成一座大橋，橋上只有一根車道，所有車輛都必須從這根車道上通過。（很顯然，這座橋只能單向通行。）
系統負荷為0，意味著大橋上一輛車也沒有。

系統負荷為0.5，意味著大橋一半的路段有車。

系統負荷為1.0，意味著大橋的所有路段都有車，也就是說大橋已經"滿"了。但是必須注意的是，直到此時大橋還是能順暢通行的。

系統負荷為1.7，意味著車輛太多了，大橋已經被佔滿了（100%），後面等著上橋的車輛為橋面車輛的70%。以此類推，系統負荷2.0，意味著等待上橋的車輛與橋面的車輛一樣多；系統負荷3.0，意味著等待上橋的車輛是橋面車輛的2倍。總之，當系統負荷大於1，後面的車輛就必須等待了；系統負荷越大，過橋就必須等得越久。

CPU的系統負荷，基本上等同於上面的類比。大橋的通行能力，就是CPU的最大工作量；橋樑上的車輛，就是一個個等待CPU處理的程序（process）。
如果CPU每分鐘最多處理100個程序，那麼系統負荷0.2，意味著CPU在這1分鐘裡只處理20個程序；系統負荷1.0，意味著CPU在這1分鐘里正好處理100個程序；系統負荷1.7，意味著除了CPU正在處理的100個程序以外，還有70個程序正排隊等著CPU處理。
為了電腦順暢執行，系統負荷最好不要超過1.0，這樣就沒有程序需要等待了，所有程序都能第一時間得到處理。很顯然，1.0是一個關鍵值，超過這個值，系統就不在最佳狀態了，你要動手干預了。

CPU負載-多處理器

上面，我們假設你的電腦只有1個CPU。如果你的電腦裝了2個CPU，會發生什麼情況呢？
2個CPU，意味著電腦的處理能力翻了一倍，能夠同時處理的程序數量也翻了一倍。
還是用大橋來類比，兩個CPU就意味著大橋有兩根車道了，通車能力翻倍了。

所以，2個CPU表明系統負荷可以達到2.0，此時每個CPU都達到100%的工作量。推廣開來，n個CPU的電腦，可接受的系統負荷最大為n.0。

CPU負載-多核處理器

晶片廠商往往在一個CPU內部，包含多個CPU核心，這被稱為多核CPU。
在系統負荷方面，多核CPU與多CPU效果類似，所以考慮系統負荷的時候，必須考慮這臺電腦有幾個CPU、每個CPU有幾個核心。然後，把系統負荷除以總的核心數，只要每個核心的負荷不超過1.0，就表明電腦正常執行。
怎麼知道電腦有多少個CPU核心呢？
"cat /proc/cpuinfo"命令，可以檢視CPU資訊。"grep -c 'model name' /proc/cpuinfo"命令，直接返回CPU的總核心數。

系統負荷的經驗法則

1.0是系統負荷的理想值嗎？
不一定，系統管理員往往會留一點餘地，當這個值達到0.7，就應當引起注意了。經驗法則是這樣的：
當系統負荷持續大於0.7，你必須開始調查了，問題出在哪裡，防止情況惡化。
當系統負荷持續大於1.0，你必須動手尋找解決辦法，把這個值降下來。
當系統負荷達到5.0，就表明你的系統有很嚴重的問題，長時間沒有響應，或者接近宕機了。你不應該讓系統達到這個值。

對於我的機器，有24個core，那麼，load多少合適呢？

[[email protected] /home/ahao.mah/ALIOS_QA]
#grep 'model name' /proc/cpuinfo | wc -l
24

答案是：

[[email protected] /home/ahao.mah/ALIOS_QA]
#echo "0.7*24" |bc
16.8

最佳觀察時長

最後一個問題，"load average"一共返回三個平均值----1分鐘系統負荷、5分鐘系統負荷，15分鐘系統負荷，----應該參考哪個值？
如果只有1分鐘的系統負荷大於1.0，其他兩個時間段都小於1.0，這表明只是暫時現象，問題不大。
如果15分鐘內，平均系統負荷大於1.0（調整CPU核心數之後），表明問題持續存在，不是暫時現象。所以，你應該主要觀察"15分鐘系統負荷"，將它作為電腦正常執行的指標。

REF

http://blog.scoutapp.com/articles/2009/07/31/understanding-load-averages

http://share.blog.51cto.com/278008/495067

http://www.ruanyifeng.com/blog/2011/07/linux_load_avera

理解Linux CPU負載和 CPU使用率

理解CPU負載和CPU使用率

Linux檢視記憶體和cpu利用率的命令（親測有效）

圖解cpu load和cpu使用率

深入理解 Linux 核心---中斷和異常

libvirt-qemu-虛擬機器cpu分配和cpu熱插拔

Linux學習 CPU負載率的計算方式理解

理解 Linux CPU 負載 1分5分15分

Linux下C獲取CPU使用率和記憶體和網路丟包率

Linux系統排查——CPU負載篇

CPU使用率和負載，物理CPU個數，核數，線程數

如何查看Linux的CPU負載

linux關於進程、內存和cpu情況

使用python進行Linux伺服器監測，畫CPU使用率和記憶體佔用圖

基於JVM原理、JMM模型和CPU快取模型深入理解Java併發程式設計

linux 排查cpu負載過高異常

檢視linux伺服器的記憶體和CPU資訊

CentOS下 CPU 負載觀察和效能監測

基於JVM原理JMM模型和CPU快取模型深入理解Java併發程式設計

基於JVM原理JMM模型和CPU緩存模型深入理解Java並發編程

理解Linux CPU負載和 CPU使用率

CPU負載和 CPU使用率

CPU負載的一個類比

CPU負載-多處理器

CPU負載-多核處理器

系統負荷的經驗法則

最佳觀察時長

REF

理解Linux CPU負載和 CPU使用率

CPU負載和 CPU使用率

CPU負載的一個類比

CPU負載-多處理器

CPU負載-多核處理器

系統負荷的經驗法則

最佳觀察時長

REF

相關推薦