一次頻繁Full GC的排查過程

阿新 • • 發佈：2019-04-10

問題描述
最近公司的線上監控系統給我推送了一些kafka lag持續增長的訊息，我上生產環境去看了相應的consumer的情況，發現幾臺機器雖然還在處理訊息，但是速度明顯慢了很多。

問題猜測與驗證
我猜測是JVM頻繁做Full GC，導致程序也跟著頻繁卡頓，處理訊息的速度自然就慢了。為了驗證這個想法，先用jstat看看記憶體使用情況：

jstat -gcutil 1 1000 #1是程序號

結果如我所料，幾乎1秒鐘就要做一次FGC，能安安靜靜的做個正常的consumer才有鬼了。

趕緊留了一臺consumer拿來做分析，把別的幾臺consumer都重啟。不管怎樣，先恢復消費能力再說！

記憶體洩露root cause排查
1秒一次FGC，那肯定是發生記憶體洩露了。

二話不說，把堆dump下來先！

jmap -F -dump:format=b,file=heapDump 1 #1是程序號

生成的heapDump檔案有將近2個G的大小，這麼大個檔案，為了不影響生產環境的機器，還是scp到本地進行分析吧！

jhat了一下，直接卡在那裡不動了。沒辦法，祭出VisualVM來幫忙。匯入檔案之後，發現有一大堆HashMap的Node在那佔著：

然而並不知道這是個啥，點進去看看內容，發現有一大堆node的key型別是X509CertImpl：

這時候我意識到，問題可能出在網路連線上面。但是還是沒法定位到具體的程式碼。

沒辦法，接著向上找線索。不斷地通過OQL查詢Referrers:

接著查詢：

這時候看到了連線池的蹤跡，感覺離真相不遠了！

到了這裡，我心裡大概知道了答案：問題一定出在阿里雲OSS身上。再結合這張圖：

就可以猜出是因為使用了OSS的客戶端，但是沒有正確的釋放資源，導致client被回收時，它所建立的資源因為還有別的referrer, 卻沒有被回收。

再去oss github上的sample一看，果然有這麼一段：

而這個shutdown方法做的正是釋放Idle資源的事兒：

public void shutdown() {
IdleConnectionReaper.removeConnectionManager(this.connectionManager);
this.connectionManager.shutdown();
}
1
2
3
4
問題修復
知道了原因，修復也是很輕鬆的事兒。在建立client的快取里加個removeListener，用來主動呼叫client.shutdown()，美滋滋：

---------------------
作者：沈鴻斌
來源：CSDN
原文：https://blog.csdn.net/u012422829/article/details/78154495
版權宣告：本文為博主原創文章，轉載請

一次頻繁Full GC問題排查過程分享

問題描述應用收到頻繁Full GC告警問題排查登入到對應機器上去，檢視GC日誌，發現YGC一分鐘已經達到了15次，比Full GC還要頻繁一些，其中Full GC平均10分鐘超過了4次，如下圖使用jstat -gcutil 5280 1000檢視實時GC情況，年老代採用的是CMS收集器，發現觸

一次頻繁Full GC的排查過程

問題描述最近公司的線上監控系統給我推送了一些kafka lag持續增長的訊息，我上生產環境去看了相應的consumer的情況，發

MySQL-記一次備份失敗的排查過程

山竹來臨，窩在家裡整理個人文件。本篇文章主要講解排查問題的思路，涉及linux 刪除檔案的原理、例項誤刪資料恢復、MySQL例項初始化引數優先級別等，雖然涉及知識點比較淺，但是個人覺得挺有意思的，所以翻出筆記釋出出來。 1 備份出錯咯

一次 Java 記憶體洩漏排查過程，漲姿勢

人人都會犯錯，但一些錯誤是如此的荒謬，我想不通怎麼會有人犯這種錯誤。更沒想到的是，這種事竟發生在了我們身上。當然，這種東西只有事後才能發現真相。接下來，我將講述一系列最近在我們一個應用上犯過的這種錯誤。最有意思的是，一開始的跡象揭示的問題，與實際發生的問題完全不同。在一個淒涼的午夜午夜剛過，我就被一條

記一次線上問題的排查過程

問題描述前不久運維在例行釋出線上CS系統的時候，發現在服務啟動的過程中，後臺一直在報如下錯誤，同時導致使用者頁面訪問異常 2017-10-10 18:28:51,077 [ERROR] org.springframework.amqp.rabbit.l

一次Mysql死鎖排查過程的全紀錄

前言之前接觸到的資料庫死鎖，都是批量更新時加鎖順序不一致而導致的死鎖，但是上週卻遇到了一個很難理解的死鎖。藉著這個機會又重新學習了一下mysql的死鎖知識以及常見的死鎖場景。在多方調研以及和同事們的討論下終於發現了這個死鎖問題的成因，收穫頗多。雖然是後端程式設計師，我們不需要

一次JobTracker擁堵問題排查過程

Hadoop版本 1.0.3 問題描述: 隨著每日MR作業數目漸增，使用者反映提交作業時經常阻塞，也就是JobTracker發生了擁堵。這種情況開始頻繁出現，我們調大JobTracker端的RPC Handler執行緒個數，並定時對JobTracker的棧資訊進行

記錄一次Mysql死鎖排查過程

知識 body ext 兩個 next ron 討論不一致 test 背景以前接觸到的數據庫死鎖，都是批量更新時加鎖順序不一致而導致的死鎖，但是上周卻遇到了一個很難理解的死鎖。借著這個機會又重新學習了一下mysql的死鎖知識以及常見的死鎖場景。在多方調研以及和同事們的

解Bug之路-記一次儲存故障的排查過程

# 解Bug之路-記一次儲存故障的排查過程高可用真是一絲細節都不得馬虎。平時跑的好好的系統，在相應硬體出現故障時就會引發出潛在的Bug。偏偏這些故障在應用層的表現稀奇古怪，很難讓人聯想到是硬體出了問題，特別是偶發性出現的問題更難排查。今天，筆者就給大家帶來一個儲存偶發性故障的排查過程。 ## Bug現場我

一次讓人難以忘懷的排查頻繁Full GC過程

我們的Java應用因頻繁FULL GC導致效能降低很多，經過多人的定位也沒有結論，於是我自主請命，經過一天的研究終於搞定了，現把經驗與大家共享，相關的gc日誌如下： 4.758: [Full GC [PSYoungGen: 464K->0K(71936K)] [P

一次JVM_OLD區佔用過高、頻繁Full GC的解決過程

最近，公司網站頻繁報警，JVM_OLD佔用過高，線上訪問超時嚴重，針對這個問題著實頭疼了一把，不過最終還是解決了，下面說下解決的過程。 1，首先登到線上機器上去，top命令，檢視當前機器的負載，檢視當前哪個程序在消耗資源。 Shell 1

一次顯式GC導致的High CPU問題處理過程

.cn images 雲服務 obj 日誌驚人的什麽 cati ros 項目現場反饋系統出現性能問題，具體表現為：所有的客戶端響應極其卡頓。第一反應推測，難道是DB層面出現阻塞？檢查v$session會話狀態及等待類型未見異常，應該可以排除DB層面原因導致的可能。繼

記錄一次抽獎超發排查問題過程

緩存控制緩存騰訊雲領導通過 redis 不知道服務更新接到運營方提出的bug，說是移動端優惠券超發，通過拉取線上數據，確實存在超發現象，而且恰好是設定的兩倍。通過在測試和仿真環境新建一個活動頁面添加優惠券進行測試，又不會出現超發現象，想到

JVM頻繁Full GC導致服務不可用定位過程

背景：公司推行微服務策略，我負責的XX模組相對於其他業務來講相對獨立，所以作為微服務推行的試點。於是分析業務邊界；做相關的架構升級：從Spring3.X升級到Spring5.X（引入了SpringBoot2.0）從JDK7升級到JDK8（老年代

一次線上的GC問題排查

6.19號下午線上系統出現了一次實時鏈路資料不通暢的問題, 業務方反應更新的增量資料沒有流入到HA3搜尋叢集登入機器後檢查日誌後發現，在週六晚上到周天下午,cr_search_merge(機器人schema統一)表增量資料猛增,初步估計瞬間壓在DRC-reader上

記一次改造react腳手架的過程

lease nts rule 加載過程 npm req ems ner comm 公司突然組織需要重新搭建一個基於node的論壇系統，前端采用react，上網找了一些腳手架，或多或少不能滿足自己的需求，最終在基於YeoMan的react腳手架generator-react-

一次網站性能排查實錄

linux性能調整排查接到一個求助電話，說是有個阿裏雲上的服務器，有性能瓶頸，但又沒有什麽具體的數據，只是說偶爾客戶端有少數連接不上，或者連接會突然中斷。我的天，最怕這種狀況了，還得自己去找問題表現是什麽，再去找什麽原因所致。----懶人可直接點此處，不必辛苦看文字因為是線上的環境，得分兩步進行。

一次差異備份拿shell過程

shadow 寫入一次科普 table 正文 blog 條件目前 0x00 前言掃描器掃到了某個網站存在目錄瀏覽，於是便有了本文。。。知識點科普： 1. 目錄瀏覽目錄瀏覽在我個人看來是危害較大的一個漏洞，該漏洞是指“在沒有默認文檔的目錄下，列出該目錄下所有文

一次完整的 HTTP 請求過程

net first 直接 orm gin 端口 add static 1.2 一次完整的HTTP請求過程從TCP三次握手建立連接成功後開始，客戶端按照指定的格式開始向服務端發送HTTP請求，服務端接收請求後，解析HTTP請求，處理完業務邏輯，最後返回一個HTTP的響應給客戶

記錄一次郵件容災恢復過程

數據庫修改 Eseutil Exchange容災恢復背景介紹客戶目前使用的是Exchange Server 2013,兩前兩後，數據盤是存儲掛載過來的，郵件備份使用的是NBU，由於機房漏水，導致存儲服務器宕機。導致絕大部分數據丟失。 Exchange恢復過程使用新存儲重新劃分磁盤，並使用N

一次頻繁Full GC的排查過程

相關推薦