一次頻繁Full GC問題排查過程分享

阿新 • • 發佈：2018-12-19

問題描述

應用收到頻繁Full GC告警

問題排查

登入到對應機器上去，檢視GC日誌，發現YGC一分鐘已經達到了15次，比Full GC還要頻繁一些，其中Full GC平均10分鐘超過了4次，如下圖
使用jstat -gcutil 5280 1000檢視實時GC情況，年老代採用的是CMS收集器，發現觸發Full GC的原因是年老代佔用空間達到指定閾值70%（-XX:CMSInitiatingOccupancyFraction=70）。
這時候猜測是某個地方頻繁建立物件導致，通過jmap -dump:format=b,file=temp.dump 5280 dump檔案，然後下載到本地通過jvisualvm分析物件的引用鏈的方式來定位具體頻繁建立物件的地方，dump檔案下載下來有5G多，整個匯入過程都花了10多分鐘。想檢視所佔空間較多物件的引用鏈，直接OOM了，dump物件太大了。這時候就換了種思路，檢視佔用空間比較大的一系列物件，看能不能找出什麼端倪。佔用空間最大的幾類物件如下圖

發現排第一的chart[]物件裡面，存在一些metrics監控的具體指標的相關內容，排第二的io.prometheus.client.Collector$MetricFamilySample$Sample和排第9和第13物件都是spring boot中metrics指標監控相關的物件，所以此時懷疑metrics監控的某個地方在頻繁建立物件，首先考慮的是否因為metrics指標太多導致的，於是登入線上機器curl localhost:8080/mertrics > metrics.log，發現響應內容有50多M，參考其他相關的正常應用，指標總共內容也就10多M左右，開啟指標內容發現了很多類似如下圖的指標

看到了這裡已經可以確定程式碼中上報這個指標是存在問題的，並沒有達到我們想要的效果，所以也懷疑也是這個地方導致的Full GC頻繁。

問題初步解決
由於這個指標也無關緊要，初步解決方案就把上報該指標的程式碼給幹掉。上線後看下Full GC問題是否會得到改善，果然，上線後Full GC告警問題已經解決。

初步解決後的思考，為什麼會有這個問題？

外部監控系統，每25s會來呼叫metrics這個介面，這個介面會把所有的metrics指標轉成字串然後作為http響應內容響應。監控每來呼叫一次就會產生一個50多M的字串，導致了頻繁YGC，進而導致了晉升至年老代的物件也多了起來，最終年老代記憶體佔用達到70%觸發了Full GC。

根源問題重現

此處採用metrics的作用：統計執行緒池執行各類任務的數量。為了簡化程式碼，用一個map來統計，重現程式碼如下

    import java.util.Map;
    import java.util.concurrent.*;
    import java.util.concurrent.atomic.AtomicInteger;
    
    /**
     * 執行緒池通過submit方式提交任務，會把Runnable封裝成FutureTask。
     * 直接導致了Runnable重寫的toString方法在afterExecute統計的時候沒有起到我們想要的作用，
     * 最終導致幾乎每一個任務（除非hashCode相同）就按照一類任務進行統計。所以這個metricsMap會越來越大，呼叫metrics介面的時候，會把該map轉成一個字元返回
     */
    public class GCTest {
        /**
         * 統計各類任務已經執行的數量
         * 此處為了簡化程式碼，只用map來代替metrics統計
         */
        private static Map<String, AtomicInteger> metricsMap = new ConcurrentHashMap<>();
    
        public static void  main(String[] args) throws InterruptedException {
            ThreadPoolExecutor threadPoolExecutor = new ThreadPoolExecutor(10, 10, 0, TimeUnit.SECONDS, new LinkedBlockingQueue<>()){
                /**
                 * 統計各類任務執行的數量
                 * @param r
                 * @param t
                 */
                @Override
                protected void afterExecute(Runnable r, Throwable t) {
                    super.afterExecute(r, t);
                    metricsMap.compute(r.toString(), (s, atomicInteger) ->
                            new AtomicInteger(atomicInteger == null ? 0 : atomicInteger.incrementAndGet()));
                }
            };
            /**
             * 源源不斷的任務新增進執行緒池被執行
             */
            for (int i =0; i < 1000; i++) {
                threadPoolExecutor.submit(new SimpleRunnable());
            }
            Thread.sleep(1000 * 2);
            System.out.println(metricsMap);
            threadPoolExecutor.shutdownNow();
        }
        static class SimpleRunnable implements Runnable{
    
            @Override
            public void run() {
                System.out.println("SimpleRunnable execute success");
            }
            /**
             * 重寫toString用於統計任務數
             * @return
             */
            @Override
            public String toString(){
                return this.getClass().getSimpleName();
            }
        }
    }

最終解決

可以把submit改成execute即可

總結

以上重顯程式碼可以看出metricsMap中的元素是會越來越多的。如果就這樣下去，最終的結果也會出現OOM。
根本原因還是對ThreadPoolExecutor不夠熟悉，所以出現了這次問題。
個人感覺Full GC類問題是比較讓人頭疼的。這些問題並不會想程式碼語法問題一樣，ide會提示我們具體錯在哪裡，我們只要修改對應地方基本都能解決。造成Full GC頻繁的原因也有很多，比如可能是jvm引數設定不合理、Metaspace空間觸發、頻繁建立物件觸發等等。
如果確定了是頻繁建立物件導致，那麼接下來的目的就是確定頻繁建立物件的對應程式碼處，這時候可以選擇通過dump線上堆疊，然後下載到本地。選擇一些視覺化分析工具進行分析。最終定位到出問題的程式碼處，然後解決問題。

一次頻繁Full GC問題排查過程分享

問題描述應用收到頻繁Full GC告警問題排查登入到對應機器上去，檢視GC日誌，發現YGC一分鐘已經達到了15次，比Full GC還要頻繁一些，其中Full GC平均10分鐘超過了4次，如下圖使用jstat -gcutil 5280 1000檢視實時GC情況，年老代採用的是CMS收集器，發現觸

一次頻繁Full GC的排查過程

問題描述最近公司的線上監控系統給我推送了一些kafka lag持續增長的訊息，我上生產環境去看了相應的consumer的情況，發

MySQL-記一次備份失敗的排查過程

山竹來臨，窩在家裡整理個人文件。本篇文章主要講解排查問題的思路，涉及linux 刪除檔案的原理、例項誤刪資料恢復、MySQL例項初始化引數優先級別等，雖然涉及知識點比較淺，但是個人覺得挺有意思的，所以翻出筆記釋出出來。 1 備份出錯咯

一次 Java 記憶體洩漏排查過程，漲姿勢

人人都會犯錯，但一些錯誤是如此的荒謬，我想不通怎麼會有人犯這種錯誤。更沒想到的是，這種事竟發生在了我們身上。當然，這種東西只有事後才能發現真相。接下來，我將講述一系列最近在我們一個應用上犯過的這種錯誤。最有意思的是，一開始的跡象揭示的問題，與實際發生的問題完全不同。在一個淒涼的午夜午夜剛過，我就被一條

記一次線上問題的排查過程

問題描述前不久運維在例行釋出線上CS系統的時候，發現在服務啟動的過程中，後臺一直在報如下錯誤，同時導致使用者頁面訪問異常 2017-10-10 18:28:51,077 [ERROR] org.springframework.amqp.rabbit.l

一次Mysql死鎖排查過程的全紀錄

前言之前接觸到的資料庫死鎖，都是批量更新時加鎖順序不一致而導致的死鎖，但是上週卻遇到了一個很難理解的死鎖。藉著這個機會又重新學習了一下mysql的死鎖知識以及常見的死鎖場景。在多方調研以及和同事們的討論下終於發現了這個死鎖問題的成因，收穫頗多。雖然是後端程式設計師，我們不需要

一次JobTracker擁堵問題排查過程

Hadoop版本 1.0.3 問題描述: 隨著每日MR作業數目漸增，使用者反映提交作業時經常阻塞，也就是JobTracker發生了擁堵。這種情況開始頻繁出現，我們調大JobTracker端的RPC Handler執行緒個數，並定時對JobTracker的棧資訊進行

記錄一次Mysql死鎖排查過程

知識 body ext 兩個 next ron 討論不一致 test 背景以前接觸到的數據庫死鎖，都是批量更新時加鎖順序不一致而導致的死鎖，但是上周卻遇到了一個很難理解的死鎖。借著這個機會又重新學習了一下mysql的死鎖知識以及常見的死鎖場景。在多方調研以及和同事們的

解Bug之路-記一次儲存故障的排查過程

# 解Bug之路-記一次儲存故障的排查過程高可用真是一絲細節都不得馬虎。平時跑的好好的系統，在相應硬體出現故障時就會引發出潛在的Bug。偏偏這些故障在應用層的表現稀奇古怪，很難讓人聯想到是硬體出了問題，特別是偶發性出現的問題更難排查。今天，筆者就給大家帶來一個儲存偶發性故障的排查過程。 ## Bug現場我

一次讓人難以忘懷的排查頻繁Full GC過程

我們的Java應用因頻繁FULL GC導致效能降低很多，經過多人的定位也沒有結論，於是我自主請命，經過一天的研究終於搞定了，現把經驗與大家共享，相關的gc日誌如下： 4.758: [Full GC [PSYoungGen: 464K->0K(71936K)] [P

一次JVM_OLD區佔用過高、頻繁Full GC的解決過程

最近，公司網站頻繁報警，JVM_OLD佔用過高，線上訪問超時嚴重，針對這個問題著實頭疼了一把，不過最終還是解決了，下面說下解決的過程。 1，首先登到線上機器上去，top命令，檢視當前機器的負載，檢視當前哪個程序在消耗資源。 Shell 1

一次顯式GC導致的High CPU問題處理過程

.cn images 雲服務 obj 日誌驚人的什麽 cati ros 項目現場反饋系統出現性能問題，具體表現為：所有的客戶端響應極其卡頓。第一反應推測，難道是DB層面出現阻塞？檢查v$session會話狀態及等待類型未見異常，應該可以排除DB層面原因導致的可能。繼

記錄一次抽獎超發排查問題過程

緩存控制緩存騰訊雲領導通過 redis 不知道服務更新接到運營方提出的bug，說是移動端優惠券超發，通過拉取線上數據，確實存在超發現象，而且恰好是設定的兩倍。通過在測試和仿真環境新建一個活動頁面添加優惠券進行測試，又不會出現超發現象，想到

JVM頻繁Full GC導致服務不可用定位過程

背景：公司推行微服務策略，我負責的XX模組相對於其他業務來講相對獨立，所以作為微服務推行的試點。於是分析業務邊界；做相關的架構升級：從Spring3.X升級到Spring5.X（引入了SpringBoot2.0）從JDK7升級到JDK8（老年代

一次線上的GC問題排查

6.19號下午線上系統出現了一次實時鏈路資料不通暢的問題, 業務方反應更新的增量資料沒有流入到HA3搜尋叢集登入機器後檢查日誌後發現，在週六晚上到周天下午,cr_search_merge(機器人schema統一)表增量資料猛增,初步估計瞬間壓在DRC-reader上

記一次改造react腳手架的過程

lease nts rule 加載過程 npm req ems ner comm 公司突然組織需要重新搭建一個基於node的論壇系統，前端采用react，上網找了一些腳手架，或多或少不能滿足自己的需求，最終在基於YeoMan的react腳手架generator-react-

一次網站性能排查實錄

linux性能調整排查接到一個求助電話，說是有個阿裏雲上的服務器，有性能瓶頸，但又沒有什麽具體的數據，只是說偶爾客戶端有少數連接不上，或者連接會突然中斷。我的天，最怕這種狀況了，還得自己去找問題表現是什麽，再去找什麽原因所致。----懶人可直接點此處，不必辛苦看文字因為是線上的環境，得分兩步進行。

一次差異備份拿shell過程

shadow 寫入一次科普 table 正文 blog 條件目前 0x00 前言掃描器掃到了某個網站存在目錄瀏覽，於是便有了本文。。。知識點科普： 1. 目錄瀏覽目錄瀏覽在我個人看來是危害較大的一個漏洞，該漏洞是指“在沒有默認文檔的目錄下，列出該目錄下所有文

一次完整的 HTTP 請求過程

net first 直接 orm gin 端口 add static 1.2 一次完整的HTTP請求過程從TCP三次握手建立連接成功後開始，客戶端按照指定的格式開始向服務端發送HTTP請求，服務端接收請求後，解析HTTP請求，處理完業務邏輯，最後返回一個HTTP的響應給客戶

記錄一次郵件容災恢復過程

數據庫修改 Eseutil Exchange容災恢復背景介紹客戶目前使用的是Exchange Server 2013,兩前兩後，數據盤是存儲掛載過來的，郵件備份使用的是NBU，由於機房漏水，導致存儲服務器宕機。導致絕大部分數據丟失。 Exchange恢復過程使用新存儲重新劃分磁盤，並使用N

一次頻繁Full GC問題排查過程分享

問題描述

問題排查

問題初步解決

初步解決後的思考，為什麼會有這個問題？

根源問題重現

最終解決

總結

相關推薦