線上問題排查

阿新 • • 發佈：2020-12-12

技術標籤：後端

線上問題排查

參考文章：
Linux top命令的用法詳細詳解
 對cpu與load的理解及線上問題處理思路解讀
 騰訊阿里都問過：線上伺服器CPU佔用率高如何排查定位問題？

0.常見問題

1、你這個專案遇到的最大挑戰是什麼？如何解決的？

2、如果線上發生了報警你回如何排查呢？

3、你有解決過什麼線上問題嗎？

4、能列舉幾個你知道的排查Linux伺服器線上問題的命令嗎？

1、線上伺服器Load飆高如何排查？。。。

2、線上伺服器CPU佔用率高如何排查？主要排查GC和死迴圈

3、線上伺服器頻繁發生Full GC如何排查？ jstat命令，檢視java堆記憶體使用情況

4、線上伺服器發生死鎖如何排查？ jstack命令，檢視堆疊資訊，裡面會出現Found one Java-level deadlock

1.伺服器效能指標

QPS: 峰值時間每秒請求次數（每天80%的訪問集中在20%的時間，這20%的時間叫做峰值時間）
TPS: 每秒處理的事務數（請求到server，server返回響應，這一個來回就是一個完整的事務）
RT: 系統對請求作出響應的時間，即一次請求耗時
LOAD：系統負載,即：處在執行狀態和正在等待狀態的程序數（程序中的核心級執行緒也會被視作不同的程序）
PV：頁面訪問次數
UV：訪客數（去重複的）

關於LOAD的幾個排查法則：

需要進行排查法則：load average 佔CPU邏輯核數的0.7時，需要開始進行是否有線上問題的排查了；

現在就要修復法則：load average 佔CPU邏輯核數的1.0時，需要立即開始排查了，否則可能收到上級的電話；

凌晨三點半鍛鍊身體法則：load average 佔CPU邏輯核數的5.0時，嚴重超負荷運轉，將失去睡眠，還要在會議上報告問題發生原因。

關於top命令實時監控系統資源相關資訊的 結果檢視： ![在這裡插入圖片描述](https://img-blog.csdnimg.cn/20201210152959829.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JhaWR1XzI2NTkyMDQx,size_16,color_FFFFFF,t_70#pic_center)

# 第一行
top - 10:40:52 up 207 days,  9:19,  9 users,  load average: 11.60, 8.30, 7.21
# 10:40:52— 當前系統時間
# 207 days,  9:19, — 系統已經連續運行了207天9小時19分鐘
# 9 users — 當前有9個使用者登入系統
# load average: 11.60, 8.30, 7.21 — load average後面的三個數分別是1分鐘、5分鐘、15分鐘的負載情況。

# 第二行
Tasks: 902 total,  13 running, 878 sleeping,  11 stopped,   0 zombie
# Tasks — 任務（程序），系統現在共有902個程序，其中處於執行中的有13個，878個在休眠（sleep），stoped狀態的有11個，zombie狀態（殭屍）的有0個。

# 第三行：CPU狀態
%Cpu(s): 11.6 us,  4.8 sy,  0.0 ni, 83.6 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
# 11.6% us — 使用者空間佔用CPU的百分比。
# 4.8% sy — 核心空間佔用CPU的百分比。
# 0.0 % ni — 改變過優先順序的程序佔用CPU的百分比
# 0.0% id — 空閒CPU百分比
# 0.0% wa — IO等待佔用CPU的百分比
# 0.0% hi — 硬中斷（Hardware IRQ）佔用CPU的百分比
# 0.0% si — 軟中斷（Software Interrupts）佔用CPU的百分比

什麼是IOWait:：

Linux下CPU共有4種狀態：us(使用者態)、sy(核心態)、id(空閒態)、iowait(io等待)。
'iowait' is the percentage of time the CPU is idle AND there is at least one I/O in progress.

# 第四行：記憶體狀態
KiB Mem : 26385964+total, 19836739+free, 29996252 used, 35496008 buff/cache
# 26385964+total — 實體記憶體總量
# 29996252 used — 使用中的記憶體總量
# 19836739+free — 空閒記憶體總量
# 35496008 buff/cache — 快取的記憶體量

# 第五行： Swap分割槽，一塊特殊的硬碟空間。虛擬記憶體中發生缺頁中斷而又沒有充足的實體記憶體時，就會用到該分割槽。
KiB Swap: 67108860 total,  7532360 free, 59576500 used. 23266046+avail Mem 
# 67108860 total — 交換區總量
# 59576500 used — 使用的交換區總量
# 7532360 free — 空閒交換區總量
# 23266046+avail Mem — 緩衝的交換區總量