1. 程式人生 > >cpu使用率低負載高,原因分析

cpu使用率低負載高,原因分析

I/O 即使 因此 內容 一個 sql語句 func 我們 加載

原因總結

產生的原因一句話總結就是:等待磁盤I/O完成的進程過多,導致進程隊列長度過大,但是cpu運行的進程卻很少,這樣就體現到負載過大了,cpu使用率低。

下面內容是具體的原理分析:
在分析負載為什麽高之前先介紹下什麽是負載、多任務操作系統、進程調度等相關概念。

什麽是負載

什麽是負載:負載就是cpu在一段時間內正在處理以及等待cpu處理的進程數之和的統計信息,也就是cpu使用隊列的長度統計信息,這個數字越小越好(如果超過CPU核心*0.7就是不正常)

負載分為兩大部分:CPU負載、IO負載

例如,假設有一個進行大規模科學計算的程序,雖然該程序不會頻繁地從磁盤輸入輸出,但是處理完成需要相當長的時間。因為該程序主要被用來做計算、邏輯判斷等處理,所以程序的處理速度主要依賴於cpu的計算速度。此類cpu負載的程序稱為“計算密集型程序”。

還有一類程序,主要從磁盤保存的大量數據中搜索找出任意文件。這個搜索程序的處理速度並不依賴於cpu,而是依賴於磁盤的讀取速度,也就是輸入輸出(input/output,I/O).磁盤越快,檢索花費的時間就越短。此類I/O負載的程序,稱為“I/O密集型程序”。

什麽是多任務操作系統

Linux操作系統能夠同時處理幾個不同名稱的任務。但是同時運行多個任務的過程中,cpu和磁盤這些有限的硬件資源就需要被這些任務程序共享。即便很短的時間間隔內,需要一邊在這些任務之間進行切換到一邊進行處理,這就是多任務。

運行中的任務較少的情況下,系統並不是等待此類切換動作的發生。但是當任務增加時,例如任務A正在CPU上執行計算,接下來如果任務B和C也想進行計算,那麽就需要等待CPU空閑。也就是說,即便是運行處理某任務,也要等到輪到他時才能運行,此類等待狀態就表現為程序運行延遲。

uptime輸出中包含“load average”的數字

1 2 [root@localhost ~]# uptime 11:16:38 up 2:06, 4 users, load average: 0.00, 0.02, 0.05

Load average從左邊起依次是過去1分鐘、5分鐘、15分鐘內,單位時間的等待任務數,也就是表示平均有多少任務正處於等待狀態。在load average較高的情況下,這就說明等待運行的任務較多,因此輪到該任務運行的等待時間就會出現較大的延遲,即反映了此時負載較高。

進程調度

什麽是進程調度:

進程調度也被一些人稱為cpu上下文切換意思是:CPU切換到另一個進程需要保存當前進程的狀態並恢復另一個進程的狀態:當前運行任務轉為就緒(或者掛起、中斷)狀態,另一個被選定的就緒任務成為當前任務。進程調度包括保存當前任務的運行環境,恢復將要運行任務的運行環境。

在linux內核中,每一個進程都存在一個名為“進程描述符”的管理表。該進程描述符會調整為按照優先級降序排序,已按合理的順序運行進程(任務)。這個調整即為進程調度器的工作。

調度器劃分並管理進程的狀態,如:

  • 等待分配cpu資源的狀態。
  • 等待磁盤輸入輸出完畢的狀態。

下面在說一下進程的狀態區別:

狀態 說明
運行態(running) 只要cpu空閑,任何時候都可以運行
可中斷睡眠(interruptible) 為恢復時間無法預測的長時間等待狀態。如,來自於鍵盤設備的輸入。
不可中斷睡眠:(uninterruptible) 主要為短時間時的等待狀態。例如磁盤輸入輸出等待。被IO阻塞的進程
就緒態(runnable) 響應暫停信號而運行的中斷狀態。
僵死態(zombie) 進程都是由父進程創建,並銷毀;在父進程沒有銷毀其子進程,被銷毀的時候,其子進程由於沒有父進程被銷毀,就會轉變為僵死態。

下面舉例來說明進程狀態轉變:

這裏有三個進程A、B、C同時運行。首先,每個進程在生成後都是可運行狀態,也就是running狀態的開始,而不是現在運行狀態,由於在linux內核中無法區別正在運行的狀態和可運行的等待狀態,下面將可運行狀態和正在運行狀態都稱為running狀態。

  • 進程A:running
  • 進程B:running
  • 進程C:running

running的三個進程立即成為調度對象。此時,假設調度器給進程A分配了CPU的運行權限。

  • 進程A:running (正在運行)
  • 進程B:running
  • 進程C:running

進程A分配了CPU,所以進程A開始處理。進程B和C則在此等待進程A遷出CPU。假設進程A進行若幹計算之後,需要從磁盤讀取數據。那麽在A發出讀取磁盤數據的請求之後,到請求數據到達之前,將不進行任何工作。此狀態稱為“因等待I/O操作結束而被阻塞”。在I/O完成處理前,進程A就一直處於等待中,就會轉為不可中斷睡眠狀態(uninterruptible),並不使用CPU。於是調度器查看進程B和進程C的優先級計算結果,將CPU運行權限交給優先級較高的一方。這裏假設進程B的優先級高於進程C。

  • 進程A:uninterruptible (等待磁盤輸入輸出/不可中斷狀態)
  • 進程B:running (正在運行)
  • 進程C:running

進程B剛開始運行,就需要等待用戶的鍵盤輸入。於是B進入等待用戶鍵盤輸入狀態,同樣被阻塞。結果就變成了進程A和進程B都是等待輸出,運行進程C。這時進程A和進程B都是等待狀態,但是等待磁盤輸入輸出和等待鍵盤輸入為不同的狀態。等待鍵盤輸入是無限期的事件等待,而讀取磁盤則是必須短時間內完成的事件等待,這是兩種不同的等待狀態。各進程狀態如下所示:

  • 進程A:uninterruptible (等待磁盤輸入輸出/不可中斷狀態)
  • 進程B:interruptible (等待鍵盤輸入輸出/可中斷狀態)
  • 進程C:running (正在運行)

這次假設進程C在運行的過程中,進程A請求的數據從磁盤到達了緩沖裝置。緊接著硬盤對內核發起中斷信號,內核知道磁盤讀取完成,將進程A恢復為可運行狀態。

  • 進程A:running (正在運行)
  • 進程B:interruptible (等待鍵盤輸入輸出/可中斷狀態)
  • 進程C:running (正在運行)

此後進程C也會變為某種等待狀態。如CPU的占用時間超出了上限、任務結束、進入I/O等待。一旦滿足這些條件,調度器就可以完成從進程C到進程A的進程狀態切換。

負載的意義:

負載表示的是“等待進程的平均數”。在上面的進程狀態變換過程中,除了running狀態,其他都是等待狀態,那麽其他狀態都會加入到負載等待進程中嗎?

事實證明,只有進程處於運行態(running)和不可中斷狀態(interruptible)才會被加入到負載等待進程中,也就是下面這兩種情況的進程才會表現為負載的值。

  • 即便需要立即使用CPU,也還需等待其他進程用完CPU
  • 即便需要繼續處理,也必須等待磁盤輸入輸出完成才能進行

下面描述一種直觀感受的場景說明為什麽只有運行態(running)和可中斷狀態(interruptible)才會被加入負載。

如:在很占用CPU資源的處理中,例如在進行動畫編碼的過程中,雖然想進行其他相同類型的處理,結果系統反映卻變得很慢,還有從磁盤讀取大量數據時,系統的反映也同樣會變的很慢。但是另一方面,無論有多少等待鍵盤輸入輸出操作的進程,也不會讓系統響應變慢。

什麽場景會造成CPU低而負載確很高呢?

通過上面的具體分析負載的意義就很明顯了,負載總結為一句話就是:需要運行處理但又必須等待隊列前的進程處理完成的進程個數。具體來說,也就是如下兩種情況:

  • 等待被授權予CPU運行權限的進程
  • 等待磁盤I/O完成的進程

cpu低而負載高也就是說等待磁盤I/O完成的進程過多,就會導致隊列長度過大,這樣就體現到負載過大了,但實際是此時cpu被分配去執行別的任務或空閑,具體場景有如下幾種。

場景一:磁盤讀寫請求過多就會導致大量I/O等待

上面說過,cpu的工作效率要高於磁盤,而進程在cpu上面運行需要訪問磁盤文件,這個時候cpu會向內核發起調用文件的請求,讓內核去磁盤取文件,這個時候會切換到其他進程或者空閑,這個任務就會轉換為不可中斷睡眠狀態。當這種讀寫請求過多就會導致不可中斷睡眠狀態的進程過多,從而導致負載高,cpu低的情況。

場景二:MySQL中存在沒有索引的語句或存在死鎖等情況

我們都知道MySQL的數據是存儲在硬盤中,如果需要進行sql查詢,需要先把數據從磁盤加載到內存中。當在數據特別大的時候,如果執行的sql語句沒有索引,就會造成掃描表的行數過大導致I/O阻塞,或者是語句中存在死鎖,也會造成I/O阻塞,從而導致不可中斷睡眠進程過多,導致負載過大。

具體解決方法可以在MySQL中運行show full processlist命令查看線程等待情況,把其中的語句拿出來進行優化。

場景三:外接硬盤故障,常見有掛了NFS,但是NFS server故障

比如我們的系統掛載了外接硬盤如NFS共享存儲,經常會有大量的讀寫請求去訪問NFS存儲的文件,如果這個時候NFS Server故障,那麽就會導致進程讀寫請求一直獲取不到資源,從而進程一直是不可中斷狀態,造成負載很高。

cpu使用率低負載高,原因分析