elasticsearch5.3.0 bulk index 效能調優實踐

阿新 • • 發佈：2019-02-14

導語：騰訊雲CDN上每天產生大量回源日誌，回源日誌通常用在問題定位的時候比較有用。這裡使用filebeat+logstash+elasticsearch的方案收集、儲存日誌資料並提供查詢。當前的使用場景裡，每天有70億條日誌需要儲存，屬於寫多讀少的場景。本文整理了在搭建elasticsearch叢集的時候需要注意的配置項，通過對這些配置項的調整，期望提高elasticsearch寫入的效能。

一、叢集基本資訊

1. 每天日誌量70億

2. ES版本： 5.3.0

3. 機器部署

master node： 3臺
data node： TS60*10
client node： 2臺

二、寫入優化措施及說明

未進行配置優化之前，ES叢集負載非常高，主要表現在磁碟IO上，寫入的qps在2萬/s左右
為了提高寫入的效能，筆者蒐集了官方文件以及一些資料，有如下優化措施。

優化點：減少重新整理頻率，降低潛在的寫磁碟效能損耗
官網解釋： How often to perform a refresh operation, which makes recent changes to the index visible to search. Defaults to 1s. Can be set to -1 to disable refresh.

優化點：減少寫磁碟的頻率

python
{
  "index" 
: {
      "translog": {
          "flush_threshold_size": "1gb",
          "sync_interval": "30s",
          "durability": "async"
      }
  }
}

Lucene只有在commit的時候才會把之前的變更持久化儲存到磁碟（每次操作都寫到磁碟的話，代價太大），在commit之前如果出現故障，上一次commit之後的變更都會丟失
為了防止資料丟失，Lucene會把變更操作都記錄在translog裡，在出現故障的時候，從上次commit起記錄在translog裡的變更都可以恢復，儘量保證資料不丟失
Lucene的flush操作就是執行一次commit，同時開始記錄一個新的translog，所以translog是用來記錄從上次commit到下一次commit之間的操作的
flush操作的頻率是通過translog的大小控制的，當translog大小達到一定值的時候就執行一次flush，對應引數為index.translog.flush_threshold_size，預設值是512mb，這裡調整為1gb，減少flush的次數
translog本身是檔案，也需要儲存到磁碟，它的儲存方式通過index.translog.durability和index.translog.sync_interval設定。預設情況下，index.translog.durability=request，意為每次請求都會把translog寫到磁碟。這種設定可以降低資料丟失的風險，但是磁碟IO開銷會較大
這裡採用非同步方式持久化translog，每隔30秒寫一次磁碟

3. index.store.throttle.type: "none"

1.4的文件關於這個引數的解釋：
index操作首先會生成很多小的segment，會有非同步邏輯合併（merge）這些segment
merge操作比較消耗IO，當系統IO效能比較差的時候，merge會影響查詢和索引的效能。
index.store.throttle.type和index.store.throttle.max_bytes_per_sec可以在節點級或者index級限制merge操作消耗的磁碟頻寬，防止因為merge導致磁碟高負載，影響其他操作
另一篇關於ES2.x index調優的文章裡講到，如果不關心查詢的效能，可以把index.store.throttle.type設為none，意為不對merge操作限速
這個引數預設配置是針對merge操作限制使用磁碟頻寬20MBps

優化點：減少併發併發merge對磁碟的消耗
index由多個shard組成，每個shard又分成很多segment，segment是index資料儲存的最小單位
segment比較多的時候會影響搜尋效能（要查詢很多segment），ES有離線的邏輯對小的segment進行合併，優化查詢效能。但是合併過程中會消耗較多磁碟IO，會影響查詢效能
index.merge.scheduler.max_thread_count控制併發的merge執行緒數，如果儲存是併發效能較好的SSD，可以用系統預設的max(1, min(4, availableProcessors / 2))，普通磁碟的話設為1

優化點：降低被動寫磁碟的可能性
該配置項指定了用於索引操作的記憶體大小，索引的結果先存在記憶體中，快取空間滿了的話，快取的內容會以segment為單位寫到磁碟。顯然，增大快取空間大小可以降低被動寫磁碟的頻率

三、優化思路梳理

1. 目標：優化index效能

2. 主要降低index效能的因素：磁碟IO（基於觀察，負載非常高）

3. 哪些操作在消耗磁碟IO

index refresh（不確定有沒有寫磁碟，待確認）
Lucene flush
translog persistant
index buffer不足導致被動寫磁碟
segment merge

關於segment merge有兩個調整，（1）減少併發merge的執行緒數，（2）放開merge的磁碟頻寬限制。這裡猜測是因為，merge操作是要做的，但是併發的merge比較耗磁碟IO，折中的方案是減少併發，加強單執行緒merge

四、測試

以上配置全部用上之後，叢集負載瞬間降低了，但是不清楚是哪個配置，或者哪些配置的影響比較大，下面通過測試確認了這些配置的影響

1. 測試方法

使用現網流量進行測試
將上述全部優化項啟用的時候作為基準，分別禁用單個優化項，觀察ES寫入效能和叢集負載

2. 測試日期：20170923

3. 測試資料

對比組	時間	qps	負載	說明
基準	14:30~15:00	61685	3	-
併發merge執行緒數設為預設（15:09）	15:30~16:00	64831	3	剛修改配置qps有個小凸尖，隨後平穩
禁用translog優化（16:07）	16:12~16:22	18399	39	qps暴跌，負載猛增
refresh interval使用預設值1s（16:28）	16:31~17:01	57012	5	qps比基準微降，負載微曾
開啟merge限流（17:05）	17:10~17:20	61862	2.5	和基準持平

4. 壓測

按照所有優化項開啟的設定，使用python api開啟多執行緒向ES叢集發起bulk index請求，同時觀察kibana monitor介面，發現index qps達到30w/s，隨後叢集很快掛掉。

五、結論

以上測試可以看到

translog優化禁用的時候叢集負載最高，寫入效能最差
index refresh操作對寫入的效能略有影響
segment merge對寫入效能影響非常小

附錄

1. ES儲存節點完整配置

cluster.routing.allocation.enable: all
bootstrap.system_call_filter: false
discovery.zen.ping.unicast.hosts: ["host0", "host1", "host2"]
thread_pool.bulk.queue_size: 6000
network.host: ${lanip}
cluster.routing.allocation.node_concurrent_recoveries: 128
path.data: 
   - /data1/cdn_log/data
   - /data2/cdn_log/data
   - /data3/cdn_log/data
   - /data4/cdn_log/data
   - /data5/cdn_log/data
   - /data6/cdn_log/data
   - /data7/cdn_log/data
   - /data8/cdn_log/data
   - /data9/cdn_log/data
   - /data10/cdn_log/data
   - /data11/cdn_log/data
   - /data12/cdn_log/data
node.master: false
path.logs: /data/log/hy-es
discovery.zen.minimum_master_nodes: 2
bootstrap.memory_lock: false
node.data: true
#node.attr.rack: r1
http.port: 9200
gateway.recover_after_data_nodes: 7
node.name: node-5
gateway.recover_after_master_nodes: 2
cluster.name: your_cluster_name
xpack.security.enabled: false
action.destructive_requires_name: true
indices.recovery.max_bytes_per_sec: 200mb
indices.memory.index_buffer_size: 20%

2. index template配置

{
  "order": 0,
  "template": "hy-log-*",
  "settings": {
    "index": {
      "refresh_interval": "30s",
      "number_of_shards": "20",
      "translog": {
        "flush_threshold_size": "1gb",
        "sync_interval": "30s",
        "durability": "async"
      },
      "number_of_replicas": "0"
    }
  },
  "mappings": {
    "_default_": {
      "dynamic_templates": [
        {
          "strings_as_keywords": {
            "mapping": {
              "index": "not_analyzed"
            },
            "match_mapping_type": "string"
          }
        }
      ]
    }
  },
  "aliases": {}
}

elasticsearch5.3.0 bulk index 效能調優實踐

導語：騰訊雲CDN上每天產生大量回源日誌，回源日誌通常用在問題定位的時候比較有用。這裡使用filebeat+logstash+elasticsearch的方案收集、儲存日誌資料並提供查詢。當前的使用場景裡，每天有70億條日誌需要儲存，屬於寫多讀少的場景。本文整理了在搭

kafka叢集基於永續性指標進行效能調優實踐-kafka 商業環境實戰

本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。期待加入IOT時代最具戰鬥力的團隊。QQ郵箱地址：[email protected]，如有任何學術交流，可隨時聯絡

kafka叢集基於延時指標進行效能調優實踐-kafka 商業環境實戰

kafka叢集基於吞吐量指標進行效能調優實踐-kafka 商業環境實戰

kafka叢集基於可用性指標進行效能調優實踐-kafka 商業環境實戰

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。期待加入IOT時代最具戰鬥力的團隊。QQ郵箱地址：[email protected]，如有任何學術交流，

效能調優實踐-提升cpu利用率

1 結論通過本次效能優化，總結了幾條經驗。 ■頻繁的加解鎖會提高系統空間的CPU佔用率鎖在核心的實現是通過佇列來實現的，加鎖操作把執行緒放入等待佇列，解鎖操作是才能夠等待佇列獲取一個執行緒來獲取鎖。所以頻繁的加解鎖CPU的開銷是非常大的。 ■鎖和執行緒的數量是兩個

eBay的Elasticsearch效能調優實踐

https://www.sohu.com/a/220443841_467759 Elasticsearch 是一個基於 Apache Lucene 的開源搜尋和分析引擎，允許使用者近實時地儲存、搜尋和分析資料。Pronto 是 eBay 託管 Elasticsearch 叢集的平臺，使 eBay 內部客戶易

Nginx動靜分離及效能調優實踐

直接看配置檔案！直接看配置檔案！直接看配置檔案！ #user nobody; worker_processes 8; #error_log logs/error.log; #error_log logs/error.log notice; #error_log

JVM效能調優實踐——JVM篇

前言在遇到實際效能問題時，除了關注系統性能指標。還要結合應用程式的系統的日誌、堆疊資訊、GClog、threaddump等資料進行問題分析和定位。關於效能指標分析可以參考前一篇JVM效能調優實踐——效能指標分析。 JVM的調優和故障處理可以使用JDK

線上Redis高併發效能調優實踐

專案背景　　最近，做一個按優先順序和時間先後排隊的需求。用 Redis 的 sorted set 做排隊佇列。　　主要使用的 Redis 命令有， zadd, zcount, zscore, zrange 等。　　測試完畢後，發到線上，發現有大量介面請求返回超時熔斷（超時時間為3s）。　　Error日

Spark SQL效能調優(Spark2.3.2)

對於某些工作負載，可以通過在記憶體中快取資料或開啟一些實驗選項來提高效能。 1.在記憶體中快取資料 Spark SQL可以通過呼叫spark.catalog.cacheTable("tableName")或dataFrame.cache()使用記憶體中的列式格式來快取表。

Xcode8.3.2 效能調優工具 Instruments 之 TimeProfiler -- 揪出頁面卡頓利器的使用方法

廢話不多說，直接上乾貨：（切記兩點：1、真機除錯。2、應用程式執行一定要釋出配置而不是除錯配置）第一步：找到 TimeProfiler (兩種方法） 1、開啟專案 2、開啟專案第二步：TimeProfiler 配置第三步：找到耗時的函式從圖片中可以看出最耗時的是-

Spark商業案例與效能調優實戰100課》第3課：商業案例之通過RDD分析大資料電影點評系各種型別的最喜愛電影TopN及效能優化技巧

Spark商業案例與效能調優實戰100課》第3課：商業案例之通過RDD分析大資料電影點評系各種型別的最喜愛電影TopN及效能優化技原始碼 package com.dt.spark.core

效能調優3：硬碟IO效能

資料庫系統嚴重依賴伺服器的資源：CPU，記憶體和硬碟IO，通常情況下，記憶體是資料的讀寫效能最高的儲存介質，但是，記憶體的價格昂貴，這使得系統能夠配置的記憶體容量受到限制，不能大規模用於資料儲存；並且記憶體是易失性的，不能持久化儲存資料，這使得記憶體只能作為執行時的快取記憶體，而硬碟是永久儲存資料的理想介質，

SQL Server 效能調優2 之索引（Index）的建立

前言索引是關係資料庫中最重要的物件之一，他能顯著減少磁碟I/O及邏輯讀取的消耗，並以此來提升 SELECT 語句的查詢效能。但它是一把雙刃劍，使用不當反而會影響效能：他需要額外的空間來存放這些索引資訊，並且當資料更新時需要一些額外開銷來保持索引的同步。形象的來說索引就像

效能調優，程式設計師轉型架構師的攔路虎【3】

效能調優系列前序文章索引：程式設計師必須掌握的效能調優：老兵哥結合個人經歷解釋了程式設計師往架構師方向發展時為什麼要跨越效能調優這一關，以及介紹了從 X、Y、Z 三個維度優化效能的思路。從 X 維度優化系統的效能：老兵哥分享了從 X 維度優化系統性能的思路，包括讓客戶端分計算儲存

1.效能調優概覽

介紹 Optimization Overview 優化概述 Optimizing SQL Statements 優化SQL語句 Optimization and Indexes 優化和索引 Optimizing Database Structure 優化資料庫結

深入理解Java虛擬機器總結一虛擬機器效能監控工具與效能調優(三)

深入理解Java虛擬機器總結一虛擬機器效能監控工具與效能調優(三) JDK的命令列工具 JDK的視覺化工具效能調優 JDK的命令列工具主要有以下幾種: jps (Java Process Status Tool): 虛擬機器程序

【Big Data 每日一題】Spark開發效能調優總結

1. 分配資源調優 Spark效能調優的王道就是分配資源,即增加和分配更多的資源對效能速度的提升是顯而易見的,基本上,在一定範圍之內,增加資源與效能的提升是成正比的,當公司資源有限,能分配的資源達到頂峰之後,那麼才去考慮做其他的調優如何分配及分配哪些資源在生產環境中,提交spark作

nkv客戶端效能調優

此文已由作者張洪簫授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。問題描述隨著考拉業務的增長和規模的擴大，很多的應用都開始重度依賴快取服務，也就是杭研的nkv。但是在使用過程中，發現服務端壓力並不是特別大的情況下，客戶端的rt卻很高，導致應用在到達一定併發的情況下，服務的質量下降的

elasticsearch5.3.0 bulk index 效能調優實踐

一、叢集基本資訊

1. 每天日誌量70億

2. ES版本： 5.3.0

3. 機器部署

二、 寫入優化措施及說明

3. index.store.throttle.type: "none"

三、 優化思路梳理

1. 目標： 優化index效能

2. 主要降低index效能的因素： 磁碟IO（基於觀察，負載非常高）

3. 哪些操作在消耗磁碟IO

四、 測試

1. 測試方法

2. 測試日期：20170923

3. 測試資料

4. 壓測

五、結論

附錄

1. ES儲存節點完整配置

2. index template配置

相關推薦

二、寫入優化措施及說明

三、優化思路梳理

1. 目標：優化index效能

2. 主要降低index效能的因素：磁碟IO（基於觀察，負載非常高）

四、測試