通過 jstack 與 jmap 分析一次線上故障

阿新 • • 發佈：2018-12-12

一、發現問題

下面是線上機器的cpu使用率，可以看到從4月8日開始，隨著時間cpu使用率在逐步增高，最終使用率達到100%導致線上服務不可用，後面重啟了機器後恢復。

二、排查思路

簡單分析下可能出問題的地方，分為5個方向：

系統本身程式碼問題
內部下游系統的問題導致的雪崩效應
上游系統呼叫量突增
http請求第三方的問題
機器本身的問題

三、開始排查

檢視日誌，沒有發現集中的錯誤日誌，初步排除程式碼邏輯處理錯誤。
首先聯絡了內部下游系統觀察了他們的監控，發現一起正常。可以排除下游系統故障對我們的影響。
檢視provider介面的呼叫量，對比7天沒有突增，排除業務方呼叫量的問題。
檢視tcp監控，TCP狀態正常，可以排除是http請求第三方超時帶來的問題。

檢視機器監控，6臺機器cpu都在上升，每個機器情況一樣。排除機器故障問題。

即通過上述方法沒有直接定位到問題。

四、解決方案

1.重啟了6臺中問題比較嚴重的5臺機器，先恢復業務。保留一臺現場，用來分析問題。

2.檢視當前的tomcat執行緒pid

3.檢視該pid下執行緒對應的系統佔用情況。top -Hp 384

4.發現pid 4430 4431 4432 4433 執行緒分別佔用了約40%的cpu

5.將這幾個pid轉為16進位制，分別為114e 114f 1150 1151

6.下載當前的java執行緒棧 sudo -u tomcat jstack -l 384>/1.txt

7.查詢5中對應的執行緒情況，發現都是gc執行緒導致的

8.dump java堆資料

sudo -u tomcat jmap -dump:live,format=b,file=/dump201612271310.dat 384

9.使用MAT載入堆檔案，可以看到javax.crypto.JceSecurity物件佔用了95%的記憶體空間，初步定位到問題。

MAT下載地址：http://www.eclipse.org/mat/

10.檢視類的引用樹，看到BouncyCastleProvider物件持有過多。即我們程式碼中對該物件的處理方式是錯誤的，定位到問題。

五、程式碼分析

我們程式碼中有一塊是這樣寫的

這是加解密的功能，每次執行加解密都會new一個BouncyCastleProvider物件,放倒Cipher.getInstance()方法中。

看下Cipher.getInstance()的實現，這是jdk的底層程式碼實現，追蹤到JceSecurity類中

verifyingProviders每次put後都會remove,verificationResults只會put，不會remove.

看到verificationResults是一個static的map，即屬於JceSecurity類的。

所以每次執行到加解密都會向這個map put一個物件，而這個map屬於類的維度，所以不會被GC回收。這就導致了大量的new的物件不被回收。

六、程式碼改進

將有問題的物件置為static，每個類持有一個，不會多次新建。

七、本文總結

遇到線上問題不要慌，首先確認排查問題的思路：

檢視日誌
檢視CPU情況
檢視TCP情況
檢視java執行緒，jstack
檢視java堆，jmap
通過MAT分析堆檔案，尋找無法被回收的物件

通過 jstack 與 jmap 分析一次線上故障

一、發現問題下面是線上機器的cpu使用率，可以看到從4月8日開始，隨著時間cpu使用率在逐步增高，最終使用率達到100%導致線上服務不可用，後面重啟了機器後恢復。二、排查思路簡單分析下可能出問題的地方，分為5個方向：系統本身程式碼問題內部下游系統的問題導致的雪

通過jstack與jmap針對項目中性能案例分析

cpu使用率 for www. 重啟 uri 解決尋找開始一個一、發現問題以面是線上機器的cpu使用率，可以看到從4月8日開始，隨著時間cpu使用率在逐步增高，最終使用率達到100%導致線上服務不可用，後面重啟了機器後恢復。二、排查思路簡單分析下可能出問題

由一次線上故障來理解下 TCP 三握、四揮 & Java 堆疊分析到原始碼的探祕

本文導讀：生產故障場景介紹 TCP 建連三次握手過程 TCP 斷連四次揮手過程結合 Java 堆疊剖析原始碼再從堆疊中找到"罪魁禍首" 問題優化方案總結 1、生產故障場景介紹業務簡介：該服務主要是提供對外的代理介面，大部分介面都會呼叫第三方介面，獲取資料後做聚合處理後，提供給客戶端使用。有一

dpdk-lvs的一次線上故障排查報告

本文記錄了dpdk-lvs叢集的一次線上故障排查過程，排查思路可供讀者參考。上篇文章回顧： SOAR的IDE外掛——您的貼身DBA保鏢背景我們內部基於 dpdk 自研的高效能負載均衡器 dpdk-lvs 已經在多個機房部

從一次線上故障思考 Java 問題定位思路

問題出現：現網CPU飆高，Full GC告警 CGI 服務釋出到現網後，現網機器出現了Full GC告警，同時CPU飆高99%。在優先恢復現網服務正常後，開始著手定位Full GC的問題。在現場只能夠抓到四個GC執行緒佔用了很高的CPU，無法抓到引發Full GC的執行緒。查看了服務故障期間的錯

從一次線上故障思考Java問題定位思路

問題出現：現網CPU飆高，Full GC告警 CGI 服務釋出到現網後，現網機器出現了Full GC告警，同時CPU飆高99%。在優先恢復現網服務正常後，開始著手定位Full GC的問題。在現場只能夠抓到四個GC執行緒佔用了很高的CPU，無法抓到引發Full GC的執行緒。查看了服務故障期間的錯誤日誌，發現更

一次線上故障：資料庫連線池洩露後的思考

一：初步排查早上作為能效平臺系統的使用高峰期，系統負載通常比其它時間段更大一些，某個時間段會有大量使用者登入。當天系統開始有使用者報障，釋出系統線上無法構建釋出，然後後續有使用者不能登入系統，系統發生假死，當然系統不是真的宕機，而是所有和資料庫有關的連線都被阻塞，隨後檢視日誌發現有大量報錯。和

一次線上mysql死鎖分析

一、現象發運車次呼叫發車介面時發生異常，後臺丟擲資料庫死鎖日誌。二、原因分析通過日誌可以看出事務T1等待 heap no 8的行鎖 (X locks 排他鎖) 事務T2持有heap no 8的行鎖，等待heap no 7的行鎖兩個更新運

JVM效能分析 | 一次生產系統Full GC問題分析與排查總結

一次生產系統Full GC問題分析與排查總結背景最近某線上業務系統生產環境頻頻CPU使用率過低，頻繁告警，通過重啟可以緩解，但是過了一段時間又會繼續預警，線上兩個服務節點相繼出現CPU資源緊張，導致伺服器卡死不可用，通過告警資訊可以看到以下問題：

記錄一次線上處理5千萬數據轉換的經驗

cas tro 資源小數 sql腳本為我可執行前言邏輯前言：剛來新公司2個月就面臨了一次線上真實數據的轉換,這些數據異常重要,對我們公司來說就是客戶的資源,說白了就是客戶存在我們公司的錢,一旦處理失敗將會影響極大,可以想象一下你存銀行2萬元,第二天查詢卻一分錢沒

記一次線上gc調優的過程

aspect hash 接下來 JD lac abs rac 數據庫 %x 近期公司運營同學經常表示線上我們一個後臺管理系統運行特別慢，而且經常出現504超時的情況。對於這種情況我們本能的認為可能是代碼有性能問題，可能有死循環或者是數據庫調用次數過多導致接口運

記一次線上MySQL數據庫死鎖問題

重復成功中一主鍵 adl 一次 his TE BE 最近線上項目報了一個MySQL死鎖（DealLock）錯誤，雖說對業務上是沒有什麽影響的，由於自己對數據庫鎖這塊了解不是很多，之前也沒怎麽的在線上碰到過。這次剛好遇到了，便在此記錄一下。出現

記一次線上Java程序導致服務器CPU占用率過高的問題排除過程

tasks all lob jstat rip 進行 runable tails 分享圖片 https://blog.csdn.net/u013991521/article/details/52781423 1、故障現象客服同事反饋平臺系統運行緩慢，網頁卡頓嚴重，多次重啟

c++ 網絡編程（六）TCP/IP LINUX下 socket編程多播與廣播實現一次發送所有組客戶端都能接收到

send all users 代碼示例 proto 次數不可的人 ssa 原文作者：aircraft 原文鏈接：https://www.cnblogs.com/DOMLX/p/9614288.html 一.多播鍥子：有這麽一種情況，網絡電臺可能需要同時向成

一次線上伺服器inode打滿的事故排查

早晨來到公司收到線上伺服器磁碟/目錄滿了的報警，於是登到伺服器上，使用df -h檢視磁碟情況： # df -h Filesystem Size Used Avail Use% Mounted on /dev/vda2 36G 36G 0

一次線上記憶體洩漏的問題排查

上線了好久的專案今天突然出現cpu到達100% 的情況，先將專案緊急重啟，恢復正常後登入伺服器排查gc日誌，發現存在記憶體洩漏的情況。 top命令檢視程序情況，top -Hp pid檢視執行緒，再jstack匯出日誌。過程匆忙，忘了截圖搜尋jsatck日誌看到許多執行緒阻塞在這一行程式碼基本可以

記一次線上Zabbix對Redis監控實錄

前言：Redis作為快取伺服器我想大家都比較的熟悉，那麼，如果想要更好的維護和監控，那麼我們會對其redis伺服器統一監控起來，如何監控呢？如果在生產環境一臺伺服器部署多個redis，這樣就會出現多個埠，如何實施有效的監控呢？下面看下多給出的實錄~ [redis-agent端] 主要用於接受r

Linux(2)---記錄一次線上服務 CPU 100%的排查過程

Linux(2)---記錄一次線上服務 CPU 100%的排查過程當時產生CPU飆升接近100%的原因是因為專案中的websocket時時斷開又重連導致CPU飆升接近100% 。如何排查的呢是通過日誌輸出錯誤資訊: 得知websocket時時重新連線的資訊,然後找到原因解決了。當然這

一次線上FullGC問題記錄

標題採自：英雄聯盟-瑞文：斷劍重鑄之日，騎士歸來之時！斷劍前兩天早上在擠地鐵的時候看到小組群裡，主管發了好多訊息，開啟來一看，說是XX專案自從22號發版後，每天晚上就瘋狂Full GC，讓我們查一下什麼原因，嘻嘻嘻，一開始聽到，心裡竊喜，為什麼呢。因為自己以前對jvm也有些瞭解，不過都只是紙上

記錄一次線上關於socket超時問題的定位

現象:應用程式就是簡單的spring+cxf組成的系統,系統上線執行後發現執行一段時間之後就發現請求可以進來卻得不到處理,cxf的處理過程是建立一個執行緒,並提交到執行緒池去執行.。 import java.io.PrintWriter; import javax.servlet.Asyn

通過 jstack 與 jmap 分析一次線上故障

一、發現問題

二、排查思路

三、開始排查

四、解決方案

五、程式碼分析

六、程式碼改進

七、本文總結

相關推薦