探究 | kafka-connector 同步 Elasticsearch速度慢根因分析？

阿新 • • 發佈：2019-01-04

1、kafka同步Elasticsearch的方式

之前博文中也有介紹：

方式一：logstash_input_kafka
方式二：kafka_connector
方式三：spark stream
方式四：java程式讀寫自己實現

2、kafka-connector同步kafka到ES

這裡寫圖片描述
場景一：kafka實時資料流直接通過kafka-connector同步到ES。
場景二：kafka實時資料流需要中間資料處理後再同步到ES。

3、同步慢問題分析？

3.1 針對場景一：

可能的原因：kafka-connector寫入ES速度慢？
可能的應對策略核心：提升ES的寫入速度

。
分解策略：

1）ES副本數設定為0
待寫入完畢後再改成實際副本值。
2）調整 bulk 執行緒池和佇列
結合物理機的執行緒大小配置與之匹配的執行緒池和佇列大小。
3）增加refresh間隔
預設的refresh的間隔是1s，用index.refresh.interval可以設定。如果設定為預設值1s，則會強迫每秒將記憶體中的資料寫入磁碟中，建立一個新的segment file。這個1s間隔是導致：寫入資料後，需要1s才能看到的原因。
如果該值調大，比如60s，新寫入的資料60s才能看到，這樣就會獲得了較大的寫入吞吐量。
因為：60s的間隔都是寫入記憶體的，每隔60s才會建立一個segment file。

4) 調整translog flush 間隔
translog的寫入可以設定，預設是request，每次請求都會寫入磁碟(fsync)，這樣就保證所有資料不會丟，但寫入效能會受影響。
如果改成async,則按照配置觸發trangslog寫入磁碟，注意這裡說的只是trangslog本身的寫盤。
translog什麼時候清空？預設是512mb，或30分鐘。這個動作就是flush，同時伴隨著segment提交(寫入磁碟)。flush之後，這段translog的使命就完成了，因為segment已經寫入磁碟，就算故障，也可以從segment檔案恢復。

index.translog.durability 
: async 
index.translog.sync_interval: 120s
index.translog.flush_threshold_size: 1024mb 
index.translog.flush_threshold_period: 120m

另外，有一個/_flush/sync命令，在做資料節點維護時很有用。其邏輯就是flush translog並且將sync_id同步到各個分片。可以實現快速恢復。
更多策略參考：

3.2 針對場景二：

結合實際場景，從後往前分析？
思考問題：
（1）kafka-connector之前的實時速度怎麼樣？
可以在kafka-connector同步之前列印日誌，看獲取的實時資料實現和當前時刻進行比對。
如果二者差值較大，則認為資料沒有實時。
可能的原因需要進一步分析。
可能問題1：接入的時候中間可能有異常。
進一步排查kafka 接入的時候的問題。
可能問題2：中間處理慢了。

1）排查下，中間有沒有呼叫第三方應用、服務。比如：讀寫資料庫、呼叫第三方分詞等服務。
2）考慮增大並行，提升呼叫速度。

（2）kafka-connector寫入到ES的時刻是不是慢了？
如果是，需要統計一段時間，比如1小時、5小時，統計出每秒的寫入速度？
這裡的優化：

1）增大並行，kafka-connector寫入ES考慮並行。
2）參考場景一中提及的ES方面的優化。

4、小結

問題排查的週期可能會很長，但是要有定力。
從後往前、找到問題的根源，“對症下藥”放得持久療效！

這裡寫圖片描述
加入知識星球，更短時間更快習得更多幹貨！

2017-07-15 10:25 思於家中床前

探究 | kafka-connector 同步 Elasticsearch速度慢根因分析？

1、kafka同步Elasticsearch的方式之前博文中也有介紹：方式一：logstash_input_kafka 方式二：kafka_connector 方式三：spark stream 方式四：java程式讀寫自己實現 2、kafk

kafka資料同步Elasticsearch深入詳解

1、kafka同步到Elasticsearch方式？目前已知常用的方式有四種： 1）logstash_input_kafka外掛；缺點：不穩定（ES中文社群討論） 2）spark stream同步；缺點：太龐大 3）kafka connecto

Kafka 不同步的副本首領選舉探究

測試版本模擬場景測試結果相關建議測試版本 kafka 1.1.1 模擬場景依次掛掉叢集每一臺機器，但是中間不間斷髮訊息，然後按照掛掉的順序依次重啟測試程式採

MongoDB——mongo-connector同步到ES

ger 成功 ins 技術 lin size 測試 ast god 1、搭建完畢MongoDb復制集環境 2、開始安裝 mongo-connector 　　pip install mongo-connector；基於pip命令，不管是linux 、window 系統默認有p

一分鐘解決上網速度慢的問題

計算機配置電腦系統數據包程序沖浪不要抱怨網速慢，只怪你自己不會調快網速？！電腦系統都會默認限制20％的網速，我們可以很輕松地解除這個限制，使你的上網速度達到100%，真正地體驗沖浪的感覺.方法如下：開始菜單－運行－輸入＂gpedit.msc”－確定－計算機配置－管理模板－網絡－

解決IntelliJ IDEA 創建Maven項目速度慢問題

blog mave maven項目解決方案文章 tell type intellij intern IntelliJ IDEA 創建maven項目速度很慢，甚至卡住不動了。解決方案一在創建Maven項目時加上 archetypeCatalog=internal 參數

關於DM8168中移植算法速度慢、效率低的新發現

use 效率 dsm crash per eight pan param rcp 有不少的朋友，特別是剛剛接觸DSP的朋友。基於DVRRDK編寫C代碼發現執行速度特別慢，我在上面簡單的對每一個像素的UV分量賦值=0x80，這樣就成了灰度圖像。對1080P圖

解決pip下載速度慢

rust lob 速度慢 oba url vim glob nbsp all 國外的pip源下載速度過慢，可以換成國內的源，這裏換成豆瓣的源。新建一個文件vim ~/.pip/pip.conf 內容為 [global]timeout = 6000index-url= ht

github資源下載速度慢的解決辦法

git log hub tps alt mage 技術分享 net img xx-net：https://github.com/XX-net/XX-Net github資源下載速度慢的解決辦法

Elasticsearch慢查詢日誌分析

elasticsearch slowlog 慢日誌目前架構：n臺filebeat客戶端來將每臺應用上的日誌傳到kafka，3臺kafka做集群用於日誌隊列，四臺ES做集群，前兩臺存放近兩天熱數據日誌，後兩臺存放兩天前的歷史日誌，數據保存一個月，目前總數據量6T。logstash與kibana與ES在一臺

數據庫查詢速度慢了？是否是因為死鎖了？一種解決死鎖的方法。

-- 檢索 blog kill _id exe 進行 xxx 通過 --查詢哪些表被死鎖 select request_session_id spid,OBJECT_NAME(resource_associated_entity_id) tableName from sy

Kafka副本同步機制

set 完全其中 block 足夠分享技術過程不可引用自：http://blog.csdn.net/lizhitao/article/details/51718185 Kafka副本 Kafka中主題的每個Partition有一個預寫式日誌文件，每個Part

查詢速度慢的原因很多，常見如下幾種 :

競爭用戶 post 查詢有用 who 活動問題返回 1、沒有索引或者沒有用到索引(這是查詢慢最常見的問題，是程序設計的缺陷) 2、I/O吞吐量小，形成了瓶頸效應。 3、沒有創建計算列導致查詢不優化。 4、內存不足 5、網絡速度慢 6、查詢出的數據量過

Github速度慢的解決方法

.net 1.4 blog github 現在 post body system ssl 首先ping一下github.global.ssl.fastly.net 得到相應的ip，例如我現在ping的ip是151.101.41.194 151.101.41.194

解決IntelliJ IDEA 創建Maven項目速度慢問題 DarchetypeCatalog

cal tail detail type http local TP ref ide 解決IntelliJ IDEA 創建Maven項目速度慢問題 DarchetypeCatalog 學習了：https://www.cnblogs.com/del88/p/6286887.h

最近排查android webview https的發熱耗電和加載速度慢問題解決

android webview https profiler setBlockNetworkImag 最近排查android webview https的發熱耗電和加載速度慢問題問題：H5頁面發熱耗電排查：通過android studio profiler 查看CPU消耗曲線，發現靜置情況

[Q&A] 解決 SBT 初始化或下載 jar 包速度慢的問題

code pes HR epo b-s 加載 borde one smart 原文地址：https://www.cnblogs.com/memento/p/9153012.html在 C:\Users\用戶名\.sbt 目錄下添加一個 "repositories" 文件，註

Win7電腦打開軟件速度慢怎麽處理？

out size 軟件分享圖片依次 pro 字符 mage 系統很多使用Win7系統的用戶都會發現這麽一個問題，就是電腦在使用過一段時間後，打開一個應用軟件的速度就會變慢，非常耽誤時間。下面就和大家分享一個解決Win7系統應用軟件打開速度慢的小技巧。Win7系統打開應

電信ss/ssr速度慢電信國際出口速度慢被QoS限速

xshell 出口之前 deploy 運營商服務器ip 找到的人比較很多人跟我反應，同一條線路，電信用戶的國際出口速度很慢，而移動/聯通用戶卻還不錯，可能移動/聯通可以流暢看1080P，而電信卡的連國外網頁都打不開。明明電信的國際出口寬帶是三家中最高的，為什麽只有

.Net4.6 Task 異步OA現金盤平臺出租函數比同步函數慢5倍踩坑經歷

數字沒有人員猜想需要信道 sleep nlog com 異步Task簡單介紹本標題有點嘩眾取寵OA現金盤平臺出租QQ2952777280【話仙源碼論壇】hxforum.com【木瓜源碼論壇】papayabbs.com ，各位都別介意（不排除個人技術能力問題） —

探究 | kafka-connector 同步 Elasticsearch速度慢根因分析？

1、kafka同步Elasticsearch的方式

2、kafka-connector同步kafka到ES

3、同步慢問題分析？

3.1 針對場景一：

3.2 針對場景二：

4、小結

相關推薦