ElasticSearch最佳入門實踐（六十九）優化寫入流程實現durability可靠儲存（translog，flush）

阿新 • • 發佈：2018-11-18

（1）資料寫入buffer緩衝和translog日誌檔案
（2）每隔一秒鐘，buffer中的資料被寫入新的segment file，並進入os cache，此時segment被開啟並供search使用
（3）buffer被清空
（4）重複1~3，新的segment不斷新增，buffer不斷被清空，而translog中的資料不斷累加
（5）當translog長度達到一定程度的時候，commit操作發生
（5-1）buffer中的所有資料寫入一個新的segment，並寫入os cache，開啟供使用
（5-2）buffer被清空
（5-3）一個commit ponit被寫入磁碟，標明瞭所有的index segment
（5-4）filesystem cache中的所有index segment file快取資料，被fsync強行刷到磁碟上
（5-5）現有的translog被清空，建立一個新的translog

基於translog和commit point，如何進行資料恢復

fsync+清空translog，就是flush，預設每隔30分鐘flush一次，或者當translog過大的時候，也會flush

POST /my_index/_flush，一般來說別手動flush，讓它自動執行就可以了

translog，每隔5秒被fsync一次到磁碟上。在一次增刪改操作之後，當fsync在primary shard和replica shard都成功>之後，那次增刪改操作才會成功

但是這種在一次增刪改時強行fsync translog可能會導致部分操作比較耗時，也可以允許部分資料丟失，設定非同步fsync translog

PUT /my_index/_settings
{
    "index.translog.durability": "async",
    "index.translog.sync_interval": "5s"
}

ElasticSearch最佳入門實踐（六十九）優化寫入流程實現durability可靠儲存（translog，flush）

（1）資料寫入buffer緩衝和translog日誌檔案（2）每隔一秒鐘，buffer中的資料被寫入新的segment file，並進入os cache，此時segment被開啟並供search使用（3）buffer被清空（4）重複1~3，新的segment不斷新增，buf

ElasticSearch最佳入門實踐（六十八）優化寫入流程實現NRT近實時（filesystem cache，refresh）

現有流程的問題，每次都必須等待fsync將segment刷入磁碟，才能將segment開啟供search使用，這樣的話，從一個document寫入，到它可以被搜尋，可能會超過1分鐘！！！這就不是近實時的搜尋了！！！主要瓶頸在於fsync實際發生磁碟IO寫資料進磁碟，是很耗時的。

ElasticSearch最佳入門實踐（七十）優化寫入流程實現海量磁碟檔案合併（segment merge，optimize）

每秒一個segment file，檔案過多，而且每次search都要搜尋所有的segment，很耗時預設會在後臺執行segment merge操作，在merge的時候，被標記為deleted的document也會被徹底物理刪除每次merge

ElasticSearch最佳入門實踐（三十九）倒排索引核心原理揭祕

1、例子，兩段文字 doc1：I really liked my small dogs, and I think my mom also liked them doc2：He never liked any dogs, so I hope that my m

ElasticSearch最佳入門實踐（三十六）query string search 語法以及 _all metadata 原理揭祕

1、query string基礎語法 GET /test_index/test_type/_search?q=test_field:test GET /test_index/test_type/_search?q=+test_field:test

ElasticSearch最佳入門實踐（二十九）document增刪改內部原理揭祕

步驟（1）客戶端選擇一個node傳送請求過去，這個node就是coordinating node（協調節點）（2）coordinating node，對document進行路由，將請求轉發給對應的node（有primary shard）（3）實際的node上的prima

ElasticSearch最佳入門實踐（二十六）bulk批量增刪改

1、bulk語法 POST /_bulk { “delete”: { “_index”: “test_index”, “_type”: “test_type”, “_id”: “3” }} { “create”: { “_index”: “test_index”, “_typ

ElasticSearch最佳入門實踐（四十九）各種query搜尋語法

1、match all 查詢所有 GET /_search { "query": { "match_all": {} } } 2、match 匹配某一個filed是否包含文字 GET /_search {

ElasticSearch最佳入門實踐（五十六）分散式搜尋引擎核心解密之query phase

1、query phase （1）搜尋請求傳送到某一個coordinate node，構構建一個priority queue，長度以paging操作from和size為準，預設為10 （2）coordinate node將請求轉發到所有shard，每個sha

ElasticSearch最佳入門實踐（六十一）修改分詞器以及定製自己的分詞器

1、預設的分詞器 standard 其餘： standard tokenizer：以單詞邊界進行切分 standard token filter：什麼都不做 lowercase token filter：將所有字母轉換為小寫 stop token filer

ElasticSearch最佳入門實踐（六十）建立、修改以及刪除索引

1、建立索引建立索引的語法 PUT /my_index { "settings": { ... any settings ... }, "mappings": { "type_one": { ... any mappings ...

ElasticSearch最佳入門實踐（五十九）基於scoll技術滾動搜尋大量資料

如果一次性要查出來比如10萬條資料，那麼效能會很差，此時一般會採取用scoll滾動查詢，一批一批的查，直到所有資料都查詢完處理完使用scoll滾動搜尋，可以先搜尋一批資料，然後下次再搜尋一批資料，以此類推，直到搜尋出全部的資料來 scoll搜尋會在第一次搜尋的

ElasticSearch最佳入門實踐（六十五）基於scoll+bulk+索引別名實現零停機重建索引

1、重建索引一個field的設定是不能被修改的，如果要修改一個Field，那麼應該重新按照新的mapping，建立一個index，然後將資料批量查詢出來，重新用bulk api寫入index中批量查詢的時候，建議採用scroll api，並且採用多執行緒

ElasticSearch最佳入門實踐（六十四）索引管理_定製化自己的dynamic mapping

1、定製dynamic策略 true：遇到陌生欄位，就進行dynamic mapping false：遇到陌生欄位，就忽略 strict：遇到陌生欄位，就報錯定製 PUT /my_index { "mappings": { "my_t

ElasticSearch最佳入門實踐（六十二）type底層資料結構

type，是一個index中用來區分類似的資料的，類似的資料，但是可能有不同的fields，而且有不同的屬性來控制索引建立、分詞器 field的value，在底層的lucene中建立索引的時候，全部是opaque bytes型別，不區分型別的 lucene是沒有

ElasticSearch最佳入門實踐（六十六）倒排索引組成結構以及其索引可變原因

倒排索引，是適合用於進行搜尋的倒排索引的結構（1）包含這個關鍵詞的document list （2）包含這個關鍵詞的所有document的數量：IDF（inverse document frequency）（3）這個關鍵詞在每個document中出現的次數：TF（ter

ElasticSearch最佳入門實踐（六十七）document寫入原理（buffer，segment，commit）

（1）資料寫入buffer （2）commit point （3）buffer中的資料寫入新的index segment （4）等待在os cache中的index segment被fsync強制刷到磁碟上（5）新的index sgement被開啟，供search使用（6）b

ElasticSearch最佳入門實踐（六）案例實戰之電商網站商品管理：多種搜尋方式

1、query string search 搜尋全部商品 took：耗費了幾毫秒 timed_out：是否超時，這裡是沒有 _shards：資料拆成了5個分片，所以對於搜尋請求，會打到所有的primary shard（或者是它的某個replica shard也可以） hits.tot

ElasticSearch最佳入門實踐（十一）分散式原理橫向擴容過程，如何超出擴容極限，以及如何提升容錯性

（1）primary&replica自動負載均衡，6個shard，3 primary，3 replica （2）每個node有更少的shard，IO/CPU/Memory資源給每個shard分配更多，每個shard效能更好（3）擴容的極限，6個shard（3 prima

ElasticSearch最佳入門實踐（四十二）什麼是mapping再次回爐透徹理解

（1）往es裡面直接插入資料，es會自動建立索引，同時建立type以及對應的mapping （2）mapping中就自動定義了每個field的資料型別（3）不同的資料型別（比如說text和date），可能有的是exact value，有的是full text （4）exac

ElasticSearch最佳入門實踐（六十九）優化寫入流程實現durability可靠儲存（translog，flush）

相關推薦