1. 程式人生 > >jvm程序執行慢診斷手冊

jvm程序執行慢診斷手冊

分享 jdk的bug 內存 狀態保存 變化 但是 print github web服務

轉:原文鏈接

生產環境最多的幾種事故之一就是程序執行慢,如果是web服務的話,表現就是響應時間長。本文分享,從業多年形成的排查守則。

診斷步驟
系統資源查看
首先是系統資源查看,而且必須是在第一步。因為很多事故都是最開始慢後面就會出現卡死,被系統殺死,程序拋出異常結束等等情況,當時的狀態沒法保存下來,不行進行復盤,所以第一步先查看系統的資源,如果出現緊張情況,趕緊把狀態保存。

top命令
查看基本就是top命令,可以看到系統cpu,內存等資源情況。經過查看系統資源大概可以分為以下情況。

問題:cpu使用率過高。
如果發現cpu成為了瓶頸的話,必須馬上進行線程情況和當時cpu占用情況的保存。在糟糕的情況下,cpu可能被占滿,那時候ssh都登錄不上去了,就沒法獲取當時的情況。

使用top -Hp pid獲取線程cpu使用率高的tid
printf "%x\n" tid,獲取線程id的16進制主要是為了在jstack中查看
jstack pid|grep tid(16)

然後就會把線程cpu使用率特別高的線程棧打出來,然後可以分析這段邏輯了。

內存使用率過高或者沒有系統資源占用過高
jmap -dump:format=b,file=heapdump.bin pid

這裏必須打dump的原因是res過高,可能出發系統的oom killer,進程可能被系統殺死,此時不獲取,可能進程就會被殺死了。如果不是系統資源問題,堆dump以後也是要用的。

堆占用查看
jstat -gc -h 10 pid 1000

jstat -gcutil -h 10 pid 1000
jstat -gccause -h 10 pid 1000

這裏一般是開三個窗口對比看數據的。-gc主要是關註堆的分區總大小。-gcutil主要是關註已使用的百分比。-gccause主要是關註fgc次數,時間以及gc原因。

內存問題的分類就比較多了,造成問題的卡頓的根本其實是gc問題。stw的時候虛擬機停頓了,導致反應不過來了。

問題:堆內存占用空間接近滿
這種情況就利用mat去查看dump分析吧,可能出現內存使用不合理或者內存泄漏,這裏需要根據代碼來分析。

問題:perm,metaspace占用接近滿
jps -lvm

查看一下jvm參數設置,很可能是參數設置不合理,-XX:MetaspaceSize是發生gc的最小空間,這裏是不是設置太小。MaxMetaspaceSize,MaxPermSize的值是否設置太小。java6如果設置都不小而且還占滿了,那就得檢測代碼裏是不是在運行時常量池加了字符串。1.7,1.8就考慮是不是業務用了什麽字節碼生成技術,動態做了一些字節碼操作。

問題:system.gc()
gccause查看gc的原因是system.gc()。需要檢測是否用了rmi,使用了直接內存,或者業務代碼調用了system.gc()。直接內存查看現在沒有現成的工具。可以使用我在github上放著的小工具查看。地址如下https://github.com/xpbob/jstatassist

問題:gc頻繁但不是system.gc()
空間都不是特別緊張,但是gc次數頻繁,並且不是system.gc()。那可能就是gc參數設置不對了,例如cms,老年代回收是一個2秒一次的輪訓操作,很有可能是現在的空間占用每次都是滿足gc的條件的,於是出現了這種情況。

問題:gc時間特別長
gc時間特別長,這個就從gc算法選擇還有內存情況來協調參數吧。但是有兩個特例,cms和g1。這兩個垃圾回收器都是有單線程回收的算法的可能的,這裏需要gc日誌分析確認。

問題:堆占用不大,res特別大
這種情況可能性太大,常見的是jni,jna操作,mmap文件,直接內存使用,jdk的bug。需要根據實際情況來分析。

問題: 業務問題
如果以上表現都沒有的話,那需要不斷的打jstack去看線程棧的變化。這個只能是結合業務來看。

jvm程序執行慢診斷手冊