spark 向elasticsearch 優化寫入資料

阿新 • • 發佈：2019-01-09

一、前言

近期有個專案用spark向es(版本5.x)寫入資料，該專案是離線任務，每天建立一個index存資料，隨著資料量的增大(2億+，峰值有5億+)。效能出現問題：寫入時間過長，es響應不過來等

二、調整策列

1.由於該專案是離線任務，並不是需要實時查詢，可以將es中的near real-time search屬性設定為-1 。預設情況下寫入到es的資料並不是馬上就刷到磁碟，而是先buffer起來（記憶體），但是這個時候客戶端是讀取不到該資料，為了實時查詢，需要定期（預設1s）將該資料刷寫到介於es和磁碟之間的filesystem cache (記憶體)，寫入到filesystem cache 是可以被客戶端讀取到的，預設屬性由於快速的刷資料導致很多小量的filesystem cache，該屬性是在建立表的時候設定的（關於near real-time search 原理見連結：

點選開啟連結）

2.index.translog.durability 預設值是request，該屬性類似於hbase 中的WAL,是為了防止寫入的資料丟失，在index或者delete的時候需要將“改變”寫入到translog中。在每個請求提交後，就將寫在translog中的“改變”重新整理到磁碟中。可以設定為async，該值表示先將“改變”寫入到記憶體滿足下面其中一個條件再刷到磁碟 condition1：快取資料達到512M（default） condition2 : 快取時間達到5s(default) 。當然設定為async後犧牲了一定的資料安全性。設定詳情見官網連結：點選開啟連結

3. 設定es.batch.size.bytes 以及es.batch.size.entries的數值，該數值表示es bulk操作中的batch大小和條數。這些設定對應到每個task中。（hadoop/spark 配置資訊見連結：

點選開啟連結）

4. 其他設定：不需要分詞可以設定為not_analyzed ，自動生成id ，根據叢集的資訊適當的增加shard num ，spark 獲取的資料是否存在資料傾斜等

三、最後

調整上面的配置後，速度提升了5倍多，而且很還少出現es響應不過來的資訊。由於本人能夠有限，對上面的描述有誤的地方歡迎提出，同時有其他優化方案也可以分享！

spark 向elasticsearch 優化寫入資料

spark 向elasticsearch 優化寫入資料

elasticsearch大量寫入資料_優化

Spark向Elasticsearch批量導入數據，出現重復的問題定位

VS2013 c++連結資料庫，應用儲存過程，向資料庫中寫入資料

spark從hbase讀取寫入資料

C++學習--向txt檔案寫入資料、讀取資料、獲取行數以及刪除檔案

C++向檔案中寫入資料

Hadoop第一個程式，利用API向HDFS中寫入資料

Python向excel中寫入資料

Python中向excel中寫入資料

Python利用xlwt向Excel中寫入資料示例

Windows下使用curl命令向elasticsearch匯入示例資料出錯問題

使用abap向資料庫直接寫入資料

mongo-spark-讀取不同的庫資料和寫入不同的庫中

使用Python-elasticsearch-bulk批量快速向elasticsearch插入資料

大資料學習之路106-spark streaming統計結果寫入mysql

使用spark將記憶體中的資料寫入到hive表中

向磁碟寫入資料提示：No spac left on device通過df -h檢視磁碟空間，發現沒滿，解決方法

向磁碟寫入資料提示：No spac left on device通過df -h檢視磁碟空間，發現沒滿

ElasticSearch最佳入門實踐（七十）優化寫入流程實現海量磁碟檔案合併（segment merge，optimize）

spark 向elasticsearch 優化寫入資料

相關推薦