記錄一次系統效能調優過程

阿新 • • 發佈：2019-12-31

問題回顧

線上上環境，由於業務場景需要，要求程式能夠在普通的4G機器中依然正常執行。而原來的環境配置為8核16G，微服務部署，一共有6個功能模組。而現在要求在一臺4核4G的裝置上正常執行。

問題清單

1. 模組合併過程中各種衝突，各種Bean無法正常載入
1. 事件處理效能原來每秒3000～1w左右，現在突然驟降至幾百左右；
1. 事件存在丟失現象，而且丟失比較嚴重
1. 發現系統cache一直在不斷的上漲，free -m 後發現可餘記憶體幾乎用沒了（剩餘100M左右，其實就差不多是用完了，不會再降低）

問題排查

1. 程式碼衝突

包名衝突。不同模組的包名設計上有重複
類名衝突。@Configuration @Bean @Controller @Service @Repository

等註解中沒有指定Bean例項的名稱。

2. 事件處理效能慢

現有的處理流程如下：

專案採用SpringBoot構建，引入 spring-boot-stater-redis
1. 通過HTTP接收到非同步事件，儲存到Redis;
2. 儲存的同時，將事件通過Redis的釋出訂閱傳送到不同的處理單元進行處理；
3. 每個事件處理單元通過Redis訂閱，然後處理事件；
4. 起一個定時器，每秒鐘從Redis中查詢一個時間視窗的事件，構建索引，然後bulkIndex到ES
複製程式碼

2.1 問題發現

1. Redis的訂閱釋出，內部會維護一個container執行緒，此執行緒會一直存在；
2. 每次訂閱，都會產生一個新的字首為RedisListeningContainer-的執行緒處理;
3. 通過jvisualvm.exe 檢視執行緒數，該類執行緒數一直在飆升
複製程式碼

2.2 問題定位

2.2.1 Redis訂閱釋出問題

程式中的實現如下：

@Bean
RedisMessageListenerContainer manageContainer(
        RedisConnectionFactory factory,MessageListener listener) {
  RedisMessageListenerContainer manageContainer = 
                    new RedisMessageListenerContainer ();
  manageContainer.setConnectionFactory(factory);
  // manageContainer.setTaskExecutor();
}
複製程式碼

程式碼中被註釋掉的那一行，實際程式碼中是沒有該行的，也就是沒有設定taskExecutor

查詢了spring-redis.xsd中關於listener-container的說明，預設的task-executor和subscription-task-executor使用的是SimpleAsyncTaskExecutor。
在原始碼中的位置

RedisMessageListenerContainer.class

...
protected TaskExecutor createDefaultTaskExecutor() {
    String threadNamePrefix = (beanName != null ? beanName + "-" :
    DEFAULT_THREAD_NAME_PREFIX) ;
    return new SimpleAsyncTaskExecutor(threadNamePrefix);
}
...
複製程式碼

SimpleAsyncTaskExecutor.class

...
protected void doExecute(Runnable task) {
    Thread thread = 
        (this.threadFactory != null 
            ? this.threadFactory,newThread(task) 
            : createThread(task));
    thread.start();
}
...
複製程式碼

SimpleAsyncTaskExecutor的execute()方法，是很無恥的new Thread(),呼叫thread.start()來執行任務

2.2.2 事件處理都是耗時操作，造成執行緒數越來越多，甚至OOM

2.3 問題解決

找到問題的產生原因，主要的解決思路有三種：

配置manageContainer.setTaskExecutor();然後選擇自己建立的執行緒池;
去掉一部分發布訂閱，改用Spring提供的觀察者模式，將絕大部分事件處理的場景，通過此方式完成釋出。 SpringUtils.getApplicationContext() .publihEvent(newEventOperation(eventList));
採用Rector模式實現事件的非同步高效處理;

建立了2個執行緒組（參考netty的底層實現）:
1. 一個用於處理事件接收 “event-recv-executor-”
    coreSize = N * 2，CPU密集型
2. 一個用於事件的非同步處理 “event-task-executor-” 
    coreSize = N / 0.1，IO密集型
複製程式碼

事件處理邏輯
@Override
public void onApplicationEvent (EventOperation event) {
    eventTaskExecutor.execute(() -> {
        doDealEventOperation(event);
    });
}
複製程式碼

3. 事件丟失

現有的處理流程如下：

專案採用SpringBoot構建，引入 spring-boot-stater-redis
1. 後臺維護了一個定時器，每秒鐘從Redis中查詢一個時間視窗的事件
複製程式碼

3.1 問題發現

在後臺定位日誌輸出，正常情況下，應該是每秒鐘執行一次定時，
但實際是，系統並不保證一定能每隔1S執行一次，
由於系統中執行緒比較多，CPU的切換頻繁，
導致定時有可能1S執行幾次或者每隔幾秒執行一次
複製程式碼

3.2 問題定位

3.2.1 定時任務不可靠

由於定時並無法保證執行，而定時任務獲取事件時，是按照時間視窗擷取，
通過redisTemplate.opsForZSet().rangeByScore(key,minScore,maxScore)實現，
勢必會造成有資料無法被載入到程式中，而一直儲存在Redis中，無法獲取，也無法刪除
複製程式碼

3.3 問題解決

找到問題的產生原因，主要的解決思路有兩種：

加大容錯率，將時間視窗拉大，原來是相隔1S的時間視窗，修改為相隔1MIN 【治標不治本，極端情況下，仍有可能造成該問題】;
採用MQ消費，此方法需要額外部署MQ伺服器，在叢集配置高的情況下，可以採用，在配置低的機器下不合適；
採用阻塞佇列，利用Lock.newCondition() 或者最普通的網路監聽模式while()都可以;

本次問題中採用的是第三種形式。起一個單獨的執行緒，阻塞監聽。

1. 事件接收後，直接塞到一個BlockingQueue中；
2. 當BlockingQueue有資料時，While迴圈不阻塞，逐條讀取佇列中的資訊；
3. 每隔1000條資料，或者每隔1S，將資料寫入ES，並分發其他處理流程
複製程式碼

4. 系統cache一直在不斷的上漲

在4G的機器下，發現經過一段時間的發包處理後，系統cache增長的非常快，最後幾近於全部佔滿：

大概每秒鐘10M的漲幅
複製程式碼

4.1 問題發現

1. 因為對於ES的瞭解，插入資料時，先寫快取，後fsync到磁碟上，因此懷疑ES可能存在問題；
2. 專案中日誌使用log4j2不當：
    * 日誌輸出過多，
    * 日誌沒有加判斷：if (log.isInfoEnabled()) 
    * 日誌檔案append過大，沒有按照大小切分等（本專案此問題之前已解決）
複製程式碼

4.2 問題定位

4.2.1 ES插入機制問題

經過隔段分析，將有可能出現問題的地方，分別遮蔽後，進行測試。
最終定位到，在ES批量寫入資料時，才會出現cache大量增長的現象
複製程式碼

4.3 問題解決

用命令檢視記憶體free -m，

buffer : 作為buffer cache的記憶體，是塊裝置的讀寫緩衝區
cached表示page cache的記憶體 和檔案系統的cache
如果 cached 的值很大，說明cache住的檔案數很多

ES操作資料的底層機制：

資料寫入時，ES記憶體緩慢上升，是因為小檔案過多（ES本身會在index時候建立大量的小檔案），linux dentry 和 inode cache會增加。可以參考：ES記憶體持續上升問題定位

本問題其實並沒有完全解決，只是在一定程度上用效能換取快取。

1. 修改系統引數，提高slab記憶體釋放的優先順序：

echo 10000 > /proc/sys/vm/vfs_cache_pressure；
複製程式碼

1. 修改ES配置引數

## 這些引數是之前優化的
threadpool.bulk.type: fixed
threadpool.bulk.min: 10
threadpool.bulk.max: 10
threadpool.bulk.queue_size: 2000

threadpool.index.type: fixed
threadpool.index.size: 100
threadpool.index.queue_size: 1000

index.max_result_window: 1000000
index.query.bool.max_clause_count: 1024000


# 以下的引數為本次優化中新增的：

# 設定ES最大快取資料條數和快取失效時間
index.cache.field.max_size: 20000
index.cache.field.expire: 1m

# 當記憶體不足時，對查詢結果資料快取進行回收
index.cache.field.type: soft

# 當記憶體達到一定比例時，觸發GC。預設為JVM的70%[記憶體使用最大值]
#indices.breaker.total.limit: 70%

# 用於fielddata快取的記憶體數量，
# 主要用於當使用排序操作時，ES會將一些熱點資料載入到記憶體中來提供客戶端訪問
indices.fielddata.cache.expire: 20m
indices.fielddata.cache.size: 10%

# 一個節點索引緩衝區的大小[max 預設無限制]
#indices.memory.index_buffer_size: 10%
#indices.memory.min_index_buffer_size: 48M
#indices.memory.max_index_buffer_size: 100M

# 執行資料過濾時的資料快取，預設為10%
#indices.cache.filter.size: 10%
#indices.cache.filter.expire: 20m

# 當tranlog的大小達到此值時，會進行一次flush操作，預設是512M
index.translog.flush_threshold_size: 100m

# 在指定時間間隔內如果沒有進行進行flush操作，會進行一次強制的flush操作，預設是30分鐘
index.translog.flush_threshold_period: 1m

# 多長時間進行一次的磁碟操作，預設是5S
index.gateway.local.sync: 1s
複製程式碼

歷程回顧

對於本次調優過程，其主要修改方向還是程式碼，即程式碼的使用不當，或者考慮不周導致
其次，對於ES的底層實現機制並不很熟悉，定位到具體的問題所在；
本次優化過程中，涉及到對GC的定位，對Linux系統底層引數的配置等
由於日誌傳輸採用HTTP，故每次傳輸都是新的執行緒。IO開銷比較大，後續會考慮替換成長連線。

附：

如果文中有描述失誤內容，或者沒有描述清楚的，可以將問題發我郵箱，[email protected],如果有其他問題，也可以聯絡我，大家一起共同討論。

願大家共同進步，共同成長。

記錄一次系統效能調優過程

問題回顧線上上環境，由於業務場景需要，要求程式能夠在普通的4G機器中依然正常執行。

一次線上JVM調優實踐，FullGC40次/天到10天一次的優化過程

通過這一個多月的努力，將FullGC從40次/天優化到近10天才觸發一次，而且YoungGC的時間也減少了一半以上，這麼大的優化，有必要記錄一下中間的調優過程。

記錄一次處理weblogic故障的過程

下午接使用者投訴，web系統登陸報500錯誤：又是空指標異常，鑑於首頁圖片能正式開啟，初步判斷weblogic故障，繼續可判斷weblogic前臺埠啟動但是內部控制器等未啟動。重啟weblogic看日誌，

記錄一次4399加密資訊解密過程

記錄一次4399加密資訊解密過程一、前提須知在4399頁面中，登入面板中輸入了使用者名稱和密碼（隨便輸入，只是拿來試試解密），輸入的使用者名稱是：test ，密碼：23232323；4399網站採用的是 HTTP 協議，

記一次單機Nginx調優，效果立竿見影

一、物理環境 1.系統是Centos 8，系統配置 2核4G，8M頻寬，一臺很輕的應用伺服器。

記錄一次打自己學校的過程

　　因為用校園網打別的學校被學校提醒了，所以打打自己學校的網站，為學校網路安全盡一份力嘛 (◍•ᴗ•◍)

一次看完28個關於ES的效能調優技巧，很贊，值得收藏！

因為總是看到很多同學在說Elasticsearch效能不夠好、叢集不夠穩定，詢問關於Elasticsearch的調優，但是每次都是一個個點的單獨講，很多時候都是case by case的解答，本文簡單梳理下日常的Elasticsearch使用調優，以

記一次壓測引起的nginx負載均衡效能調優

這邊有個效能要求極高的api要上線，這個服務端是golang http模組實現的。在上線之前我們理所當然的要做壓力測試。起初是 “小白同學” 起頭進行壓力測試，但當我看到那壓力測試的結果時，我也是逗樂了。現象是，直接

記錄一次mybatis快取和事務傳播行為導致ut掛的排查過程

起因 rhea專案有兩個ut一直都是掛的，之前也經過幾個同事排查過，但是都沒有找到解決辦法，慢慢的這個問題就擱置了。因為之前負責rhea專案的同事離職，我臨時接手了這個專案，剛好最近來了一個新同事在做新的功能開發

記錄一次儲存過程的使用（2）

/*儲存過程start--插入選項的code*/ DELIMITER // DROP PROCEDURE IF EXISTS INSERT_OPTION_VALUE// CREATE PROCEDURE INSERT_OPTION_VALUE ()

nginx效能調優一（worker_processes、worker_cpu_afﬁnity引數配置）

Nginx worker 程序個數語法:worker_processes number;預設:worker_processes 1;worker 程序的數量會直接影響效能，那麼，使用者配置多少個 worker 程序才好呢?這實際上與業務需求有關。每個 worker 程序都是單執行

記錄一次websocket封裝的過程

在一個應用中，websocket一般都是以單例形式存在的，即在整個應用中，websocket例項始終保持唯一。但有時我們要用到websocket例項的時候，可能websocket還沒例項化，所以要做成非同步的形式來獲取例項。

MySQL 效能調優和系統資源優化解決方案

資料庫的重要性不言而喻，從系統開發到部署到生產環境，可能都在做跟業務相關的處理，可能當客戶反饋系統執行有些慢的時候，作為 developer 可能會思考是我們自己寫的那”坨”程式碼的問題? 是自己 Coding 的問題?

記錄一次在列表裡顯示關聯表對應的名稱的過程

技術標籤：thinkphp學習phpthinkphp 之前在列表裡顯示的是id。如圖：雜誌分類這裡之前顯示的是id，需要修改成顯示雜誌分類關聯表的cat_name欄位的值。在返回的數組裡加上：

記錄一次OOM的排查過程以及記憶體分析、解決方案

　　在測試環境中開啟的堆大小是4g。但是卻發生了OOM。　　發生OOM的場景是：上傳Excel 之後進行資料的清洗，然後清洗完成之後會將清洗掉的、清洗後的資料再次備份到磁碟中；同時將清洗後的資料入關係型資料庫。(解

記錄一次.net core web Api 專案中在全域性對返回值進行類包裝的解決過程

// 第一次寫，寫的比較亂一. 先看需求：要求絕大部分的api介面的返回值都用此型別包裝過後進行返回，將原返回值放到result中。

記錄一次 aws gpu 伺服器安裝gpu驅動的過程

下載驅動 # 顯示卡驅動版本 lspci|grep -i \'nvida\' 00:1e.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 SXM2 16GB] (rev a1)

記錄一次現網MySQL記憶體增長超限問題定位過程

問題現象現網物理機記憶體近幾日內爆漲使用率超過了90%，可用記憶體從250G，降低到20G以下，報告警。伺服器使用情況來看，並沒有什麼異常。除了QPS緩慢增長外。

記錄一次生產環境LVM中誤操作刪除VG卷組恢復過程

場景描述：ORacle伺服器中的資料盤容量已滿，需要將其資料目錄遷移到1.8T的SATA盤中，當時午睡醒來有些迷糊，誤將oracle資料目錄解除安裝並將其所在的磁碟刪除VG卷組以及格式化磁碟；將oracle資料目錄遷移到新做好檔

記錄一次系統效能調優過程

問題回顧

問題清單

問題排查

1. 程式碼衝突

2. 事件處理效能慢

2.1 問題發現

2.2 問題定位

2.2.1 Redis訂閱釋出問題

2.2.2 事件處理都是耗時操作，造成執行緒數越來越多，甚至OOM

2.3 問題解決

3. 事件丟失

3.1 問題發現

3.2 問題定位

3.2.1 定時任務不可靠

3.3 問題解決

4. 系統cache一直在不斷的上漲

4.1 問題發現

4.2 問題定位

4.2.1 ES插入機制問題

4.3 問題解決

歷程回顧

附：

相關推薦