1. 程式人生 > >CPU爆滿後的無助感

CPU爆滿後的無助感

告警

       晚七點剛好上地鐵,握在手裡的手機震動了好幾下,根據震動這幾下的手感已經判斷出這是釘釘在告警了,十有八九就是線上的問題,通過Zabbix監控的一臺線上伺服器已經五分鐘不可達,這應該不會是網路網路問題了,如果是網路問題,其他線上機器應該都會不可達。沒背電腦,只能乾著急,後來大概看了一下雲平臺是因為CPU過高導致的。過了大概半個小時,有自動恢復了。

       其實這個問題隱隱約約出現好幾次了,只是沒去重視,今天一來到公司就開始開啟xshell,啪啪啪幾下登入上去之後,袖子一卷,準備好好排查一下,看看到底是何方妖怪讓我的CPU飆升還機器都連不上去。

 

排查

       呆呆的看著這個黑色的框框,沒錯,我呆呆的看著他看了一天了。因為我完全沒有頭緒,沒有思路,從哪裡下手?按照平時的套路,看日誌,開啟幾個相關的日誌,眼睛都瞄沒了,也沒找到什麼有用的東西。網上搜索一下,看看有麼有什麼好的辦法排查,開啟Google,開啟baidu,千篇一律,簡直就是複製貼上,基本上使用top找到CPU佔用高的程序,然後看程序的日誌。但是我現在已經不是第一現場了。回想起了以前面試的時候面試過經常會問當你的機器CPU突然很高時,你怎麼辦?頭腦裡也一次又一次的出現平時說要好好看看linux系統的書,沒看,真後悔,等這次後我一定要把這方面的知識好好學習學習,系統的學習。可是等今晚回去睡一覺,明早一醒來,還是原樣。

 

反思

      日復一日,年復一年,畢業已三年半,運維職業生涯將近四年。三天打魚,兩天晒網,今天看Docker,明天看ELK,樣樣都沒學通。基礎底層的東西還是一竅不通。有時候能明顯的感覺到自己腦袋裡那點知識是少之又少。現在做運維感覺都是很先進的東西,AIOps,DevOps,這些東西不學也不行。但我覺得不管什麼Ops,基礎還是很重要。還是打算在跟上時代的腳步時,想往系統運維這一塊深入發展。

單從Zabbix的這幾個CPU監控項來說,每個監控項的意義是什麼,估計會難道一大批跟我一樣的工程師們。

system.cpu.switches            
system.cpu.util[,guest_nice]
system.cpu.util[,guest]        
system.cpu.util[,idle]        
system.cpu.util[,interrupt]    
system.cpu.util[,iowait]    
system.cpu.util[,nice]      
system.cpu.util[,softirq]    
system.cpu.util[,steal]        
system.cpu.util[,system]    
system.cpu.util[,user]        
system.cpu.intr                
system.cpu.load[percpu,avg1]


不知不覺天已黑,又到了下班,心裡多了幾分沉重感。