Spark2.x寫入Elasticsearch的效能測試

阿新 • • 發佈：2019-01-21

一、Spark整合ElasticSearch的設計動機

ElasticSearch 毫秒級的查詢響應時間還是很驚豔的。其優點有：

1. 優秀的全文檢索能力

2. 高效的列式儲存與查詢能力

3. 資料分散式儲存(Shard 分片)

相應的也存在一些缺點：

1. 缺乏優秀的SQL支援

2. 缺乏水平擴充套件的Reduce(Merge)能力，現階段的實現侷限在單機

3. JSON格式的查詢語言，缺乏程式設計能力，難以實現非常複雜的資料加工，自定義函式(類似Hive的UDF等)

Spark 作為一個計算引擎，可以克服ES存在的這些缺點：

1. 良好的SQL支援

2. 強大的計算引擎，可以進行分散式Reduce

3. 支援自定義程式設計(採用原生API或者編寫UDF等函式對SQL做增強)

所以在構建即席多維查詢系統時，Spark 可以和ES取得良好的互補效果

二、Spark與ElasticSearch結合的架構和原理

ES-Hadoop無縫打通了ES和Hadoop兩個非常優秀的框架，我們既可以把HDFS的資料匯入到ES裡面做分析，也可以將es資料匯出到HDFS上做備份，歸檔，其中值得一提的是ES-Hadoop全面的支援了Spark框架，其中包括Spark，Spark Streaming，Spark SQL，此外也支援Hive，Pig，Storm，Cascading，當然還有標準的MapReduce，無論用那一個框架整合ES，都是非常簡潔的。最後還可以使用Kibana提供的視覺化的資料分析一條龍服務，非常棒的組合

整個資料流轉圖如下

而我們今天要介紹的，就是使用ES-Hadoop裡面的ES-Spark外掛，來完成使用spark向ES裡面大批量插入資料和載入資料。

三、叢集的硬體配置

Spark叢集含有3個節點，FEA-spk和Spark叢集的互動採用yarn-client。

主機	cpu	mem	disk
10.68.23.89	1200MHZ*8	50g	400g
10.68.23.90	1200MHZ*8	50g	400g
10.68.23.91	1200MHZ*8	50g	400g

四、寫入elasticsearch的資料介紹

elasticsearch副本數量是2個，每一個副本的大小是216.4g

資料的條數為88762914，欄位的個數73個

五、FEA-spk寫入ElasticSearch的原語實現

（1）建立spk的連線

（2）建立ElasticSearch的連線

（3）載入資料到es中

資料的格式如下表所示

（4）檢視一下df1表的前十行

（5）將df1表的資料寫回到ES裡面，其中spark是index,people是type

由於資料量比較大，所以我們選擇後臺執行

進入spark web介面，檢視執行情況

我們可以看到花費了2.3小時，如果對叢集的資源和引數優化，時間可能會更短

六、Spark寫回資料到ES的效能計算

每秒處理的資料條數=總條數/總時間=88762914/(2.5*60*60)=9863條

每條記錄的大小=總大小/總條數=216.4*1024*1024k/88762914=3K

每秒能寫多少兆=每秒處理的資料條數*每條記錄的大小/1024=9863*3/1024=29M

七、FEA-spk結合ES適用的場景

不會使用Spark，想使用Spark分析存放在ES中的資料，把結果寫入到ES裡面，FEA-spk是一個不錯的選擇。

Spark2.x寫入Elasticsearch的效能測試

Spark2.x寫入Elasticsearch的效能測試

Elasticsearch效能測試

elasticsearch效能測試工具rally深入詳解

elasticsearch 效能測試

spark2.x寫入資料到ElasticSearch5.X叢集

timescaledb和PG寫入效能測試

PostgreSQL 資料寫入效能測試

ElasticSearch寫入和查詢測試

spark+kafka+Elasticsearch單機環境的部署和效能測試

Spark2.x 新特性

Spark2.x 與 Spark1.x 關系

java及spark2.X連接mongodb3.X單機或集群的方法（帶認證及不帶認證）

dedeCMS遠程寫入getshell（測試版本V5.7）

spark2.x由淺入深深到底系列六之RDD java api詳解二

spark2.x由淺入深深到底系列六之RDD java api調用scala api的原理

spark2.x由淺入深深到底系列六之RDD java api詳解三

spark2.x由淺入深深到底系列六之RDD java api詳解四

spark2.x由淺入深深到底系列六之RDD 支持java8 lambda表達式

spark2.x由淺入深深到底系列六之RDD java api用JdbcRDD讀取關系型數據庫

spark2.x由淺入深深到底系列五之python開發spark環境配置

Spark2.x寫入Elasticsearch的效能測試

相關推薦