1. 程式人生 > >IG牛皮 JVM命令-java伺服器故障排查

IG牛皮 JVM命令-java伺服器故障排查

一、top(Linux命令)

執行top命令: (檢視程序15477的詳細情況,下文用到)
在這裡插入圖片描述

系統資訊(前五行):

第1行:Top 任務佇列資訊(系統執行狀態及平均負載),與uptime命令結果相同。
第1段:系統當前時間,例如:16:07:37
第2段:系統執行時間,未重啟的時間,時間越長系統越穩定。
格式:up xx days, HH:MM
例如:241 days, 20:11, 表示連續運行了241天20小時11分鐘
第3段:當前登入使用者數,例如:1 user,表示當前只有1個使用者登入
第4段:系統負載,即任務佇列的平均長度,3個數值分別統計最近1,5,15分鐘的系統平均負載
系統平均負載:單核CPU情況下,0.00 表示沒有任何負荷,1.00表示剛好滿負荷,超過1側表示超負荷,理想值是0.7;
多核CPU負載:CPU核數 * 理想值0.7 = 理想負荷,例如:4核CPU負載不超過2.8何表示沒有出現高負載。
第2行:Tasks 程序相關資訊
第1段:程序總數,例如:Tasks: 231 total, 表示總共執行231個程序
第2段:正在執行的程序數,例如:1 running,
第3段:睡眠的程序數,例如:230 sleeping,
第4段:停止的程序數,例如:0 stopped,
第5段:殭屍程序數,例如:0 zombie
第3行:Cpus CPU相關資訊,如果是多核CPU,按數字1可顯示各核CPU資訊,此時1行將轉為Cpu核數行,數字1可以來回切換。
第1段:us 使用者空間佔用CPU百分比,例如:Cpu(s): 12.7%us,
第2段:sy 核心空間佔用CPU百分比,例如:8.4%sy,
第3段:ni 使用者程序空間內改變過優先順序的程序佔用CPU百分比,例如:0.0%ni,
第4段:id 空閒CPU百分比,例如:77.1%id,
第5段:wa 等待輸入輸出的CPU時間百分比,例如:0.0%wa,
第6段:hi CPU服務於硬體中斷所耗費的時間總額,例如:0.0%hi,
第7段:si CPU服務軟中斷所耗費的時間總額,例如:1.8%si,
第8段:st Steal time 虛擬機器被hypervisor偷去的CPU時間(如果當前處於一個hypervisor下的vm,實際上hypervisor也是要消耗一部分CPU處理時間的)
第4行:Mem 記憶體相關資訊(Mem: 12196436k total, 12056552k used, 139884k free, 64564k buffers)
第1段:實體記憶體總量,例如:Mem: 12196436k total,
第2段:使用的實體記憶體總量,例如:12056552k used,
第3段:空閒記憶體總量,例如:Mem: 139884k free,
第4段:用作核心快取的記憶體量,例如:64564k buffers
第5行:Swap 交換分割槽相關資訊(Swap: 2097144k total, 151016k used, 1946128k free, 3120236k cached)
第1段:交換區總量,例如:Swap: 2097144k total,
第2段:使用的交換區總量,例如:151016k used,
第3段:空閒交換區總量,例如:1946128k free,
第4段:緩衝的交換區總量,3120236k cached
程序資訊:

在top命令中按f按可以檢視顯示的列資訊,按對應字母來開啟/關閉列,大寫字母表示開啟,小寫字母表示關閉。帶*號的是預設列。

A: PID = (Process Id) 程序Id;
E: USER = (User Name) 程序所有者的使用者名稱;
H: PR = (Priority) 優先順序
I: NI = (Nice value) nice值。負值表示高優先順序,正值表示低優先順序
O: VIRT = (Virtual Image (kb)) 程序使用的虛擬記憶體總量,單位kb。VIRT=SWAP+RES
Q: RES = (Resident size (kb)) 程序使用的、未被換出的實體記憶體大小,單位kb。RES=CODE+DATA
T: SHR = (Shared Mem size (kb)) 共享記憶體大小,單位kb
W: S = (Process Status) 程序狀態。D=不可中斷的睡眠狀態,R=執行,S=睡眠,T=跟蹤/停止,Z=殭屍程序
K: %CPU = (CPU usage) 上次更新到現在的CPU時間佔用百分比
N: %MEM = (Memory usage (RES)) 程序使用的實體記憶體百分比
M: TIME+ = (CPU Time, hundredths) 程序使用的CPU時間總計,單位1/100秒
b: PPID = (Parent Process Pid) 父程序Id
c: RUSER = (Real user name)
d: UID = (User Id) 程序所有者的使用者id
f: GROUP = (Group Name) 程序所有者的組名
g: TTY = (Controlling Tty) 啟動程序的終端名。不是從終端啟動的程序則顯示為 ?
j: P = (Last used cpu (SMP)) 最後使用的CPU,僅在多CPU環境下有意義
p: SWAP = (Swapped size (kb)) 程序使用的虛擬記憶體中,被換出的大小,單位kb
l: TIME = (CPU Time) 程序使用的CPU時間總計,單位秒
r: CODE = (Code size (kb)) 可執行程式碼佔用的實體記憶體大小,單位kb
s: DATA = (Data+Stack size (kb)) 可執行程式碼以外的部分(資料段+棧)佔用的實體記憶體大小,單位kb
u: nFLT = (Page Fault count) 頁面錯誤次數
v: nDRT = (Dirty Pages count) 最後一次寫入到現在,被修改過的頁面數
y: WCHAN = (Sleeping in Function) 若該程序在睡眠,則顯示睡眠中的系統函式名
z: Flags = (Task Flags <sched.h>) 任務標誌,參考 sched.h
X: COMMAND = (Command name/line) 命令名/命令列
參考 Linux效能分析工具top命令詳解

執行top -Hp PID,如 top -Hp 15477

檢視某程序中的執行緒 注:此時PID是執行緒id

如執行緒15571有異常需要檢視,使用jstack列印堆疊,檢視執行緒15571狀態(15571 16進位制=3cd3)

IG牛皮 JVM命令-java伺服器故障排查
二、jstack

參考 java命令–jstack 工具

Java命令學習系列(二)——Jstack

需要到JDK安裝目錄下使用(可通過ps x檢視java程序,得到jdk安裝目錄)

./jstack PID(程序id) ./jstack 15477

紅框中即為執行緒15571(16進位制=3cd3) 狀態

IG牛皮 JVM命令-java伺服器故障排查
分析jstack日誌:

IG牛皮 JVM命令-java伺服器故障排查
監視器Monitor:

Monitor是 Java中用以實現執行緒之間的互斥與協作的主要手段,它可以看成是物件或者 Class的鎖。

每一個物件都有,也僅有一個 monitor。

下面這個圖,描述了執行緒和Monitor之間關係,以及執行緒的狀態轉換:

IG牛皮 JVM命令-java伺服器故障排查
進入區(Entrt Set):表示執行緒通過synchronized要求獲取物件的鎖。如果物件被鎖住,則進入擁有者;否則在進入區等待。一旦物件鎖被其他執行緒釋放,立即參與競爭。

擁有者(The Owner):表示某一執行緒成功競爭到物件鎖。

等待區(Wait Set):表示執行緒通過物件的object.wait()方法,釋放物件的鎖,並在等待區等待被喚醒。

從圖中可以看出,一個 Monitor在某個時刻,只能被一個執行緒擁有,該執行緒就是 Active Thread,而其它執行緒都是 Waiting Thread,分別在兩個佇列 Entry Set和 Wait Set裡面等候。

在 Entry Set中等待的執行緒動作是 Waiting for monitor entry。

在 Wait Set中等待的執行緒動作是 in Object.wait()。當一個執行緒申請進入臨界區時,它就進入了 Entry Set佇列。

(我們稱被 synchronized保護起來的程式碼段為臨界區。當一個執行緒申請進入臨界區時,它就進入了 “Entry Set ”佇列)

執行緒狀態:

NEW:未啟動的。不會出現在Dump中。

RUNNABLE:在虛擬機器內執行的,執行中狀態。The Owner區

BLOCKED:受阻塞並等待監視器鎖。在Entry Set區等鎖。

WATING:無限期等待另一個執行緒執行特定操作。在Wait Set區等待某個condition或monitor發生,一般停留在wait()等語句裡。

TIMED_WATING:有時限的等待另一個執行緒的特定操作。在Wait Set區和WAITING的區別是wait() 等語句加上了時間限制 wait(timeout)。

TERMINATED:已退出的。

呼叫修飾

表示執行緒在方法呼叫時,額外的重要的操作。修飾上方的方法呼叫。

locked <地址> 目標:使用synchronized申請物件鎖成功,監視器的擁有者。The Owner區。

waiting to lock <地址> 目標:使用synchronized申請物件鎖未成功,在Entry Set區等鎖。執行緒狀態為Blocked

waiting on <地址> 目標:使用synchronized申請物件鎖成功後,釋放鎖,在Wait Set區等鎖。執行緒狀態為WAITING或TIMED_WATING

parking to wait for <地址> 目標:呼叫了park(),在Wait Set區,等待許可。

(park是基本的執行緒阻塞原語,不通過監視器在物件上阻塞。

park: 進入WAITING狀態,對比wait不需要獲得鎖就可以讓執行緒WAITING,通過unpark喚醒)

執行緒動作

執行緒狀態產生的原因。

runnable:The Owner區,狀態RUNNABLE

in Object.wait():呼叫wait(),Wait Set區,狀態為WAITING或TIMED_WAITING,修飾waiting on

waiting for monitor entry:等鎖,Entry Set區,狀態BLOCKED,修飾waiting to lock

waiting on condition:因某種條件被park,Wait Set區,狀態為parking to wait for

sleeping:休眠的執行緒,呼叫了Thread.sleep()

總結

1、檢視執行緒dump,先看執行緒狀態/執行緒動作(比較直觀),可以確定執行緒目前處於哪個階段。然後看呼叫修飾及鎖情況,基本就可以確定次執行緒是否有問題;

2、可以短時間(可能有問題的時間段)內多次列印執行緒快照,然後檢視可能有問題的某一執行緒在這幾次的情況,可以有效查詢問題。

三、jps

類似Linux命令ps

參考 Java命令學習系列(一)——Jps

./jps

IG牛皮 JVM命令-java伺服器故障排查
./jps -q

IG牛皮 JVM命令-java伺服器故障排查
./jps -m

IG牛皮 JVM命令-java伺服器故障排查
./jps -l

IG牛皮 JVM命令-java伺服器故障排查
./jps -v

IG牛皮 JVM命令-java伺服器故障排查
四、jmap

參考 Java命令學習系列(三)——Jmap

java命令–jmap命令使用

jmap -heap PID:堆使用情況

jmap -histo PID:物件情況

(jmap -histo:live 這個命令執行,JVM會先觸發gc,然後再統計資訊

重點看專案上的類:[C是字串陣列,String用;[B是位元組陣列,網路層用到。這兩個比較大一般沒關係

[C is a char[]

[S is a short[]

[I is a int[]

[B is a byte[]

[[I is a int[][]

技術在於學習 在於實踐 在於總結 在於分享
歡迎工作一到五年的Java工程師朋友們加入Java架構開發: 854393687
群內提供免費的Java架構學習資料(裡面有高可用、高併發、高效能及分散式、Jvm效能調優、Spring原始碼,MyBatis,Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多個知識點的架構資料)合理利用自己每一分每一秒的時間來學習提升自己,不要再用"沒有時間“來掩飾自己思想上的懶惰!趁年輕,使勁拼,給未來的自己一個交代!