記錄一次cpu 100%線上問題排查
阿新 • • 發佈:2019-01-31
功能問題,通過日誌,單步除錯相對比較好定位。
效能問題,例如線上伺服器CPU100%,如何找到相關服務,如何定位問題程式碼,更考驗技術人的功底。
最近做專案時碰到線上某臺例項不時出現CPU 100%的報警:線上部署了若干tomcat例項,即若干垂直切分的Java站點服務,以及若干Java微服務,突然收到運維的CPU異常告警。
問:如何定位是哪個服務程序導致CPU過載,哪個執行緒導致CPU過載,哪段程式碼導致CPU過載?
步驟一、找到最耗CPU的程序
工具:top
方法:
· 執行top -c,顯示程序執行資訊列表
· 鍵入P(大寫p),程序按照CPU使用率排序
圖示:
如上圖,最耗CPU的程序
步驟二:找到最耗CPU的執行緒
工具:top
方法:
· top -Hp 10765,顯示一個程序的執行緒執行資訊列表
· 鍵入P(大寫p),執行緒按照CPU使用率排序
圖示:
如上圖,程序10765內,最耗CPU的執行緒PID為10804
步驟三:將執行緒PID轉化為16進位制
工具:printf
方法:printf “%x\n” 10804
10804對應的16進位制是0x2a34,當然,這一步可以用計算器。
之所以要轉化為16進位制,是因為堆疊裡,執行緒id是用16進製表示的。
步驟四:檢視堆疊,找到執行緒在幹嘛
工具:pstack/jstack/grep
方法:jstack 10765 | grep ‘0x2a34’ -C5 --color
· 列印程序堆疊
· 通過執行緒id,過濾得到執行緒堆疊
圖示:
如上圖,找到了耗CPU高的執行緒對應的執行緒名稱“AsyncLogger-1”,以及看到了該執行緒正在執行程式碼的堆疊。