Elasticsearch從入門到放棄：人生若只如初見

阿新 • • 發佈：2019-12-31

Elasticsearch系列開坑啦，入門總是愉快的，學一學再放棄啊。

Apache Lucene是ElasticSearch使用的全文檢索庫。瞭解Lucene之前，需要先了解一些概念：

其中最重要的是倒排索引，為了方便理解，我們看一個簡單的例子。

假設這裡有三句話：

T[0] = "it is what it is"

T[1] = "what is it"

T[2] = "it is a banana"

倒排索引通常有兩種表現形式：

"a" : {2}

"banana" : {2}

"is" : {0,1,2}

"it" : {0,2}

"what" : {0,1}

"a" : {(2,2)}

"banana" : {(2,3)}

"is" : {(0,1),(0,4),(1,(2,1)}

"it" : {(0,0),3),2),0)}

"what" : {(0,0)}

在瞭解了Lucene的一些基本概念之後，還需要了解Lucene的查詢語言。一個查詢通常被分割為詞項和操作符，詞項可以是單個詞或短語。操作符包括：

NOT：不包含NOT操作符後面的詞項
+：只有包含+操作符後面詞項的檔案才會返回。例如，查詢+lucene apache表示必須包含lucene，apache可包含可不包含
-：匹配的檔案不能出現-操作符後的詞項
冒號：查詢title:elasticsearch表示要查詢所有在title欄位中包含詞項elastisearch的檔案
萬用字元（?/*）：?匹配任意一個字元，*匹配任意多個字元（出於效能考慮，萬用字元不能作為詞項的第一個字元）
~：用於Lucene中的模糊查詢，~後面跟的整數值確定了近似詞項與原始詞項的最大編輯距離。例如查詢boy~2，那麼boy和boys這兩個詞項都能匹配，用於短語時，則表示詞項之間可以接受的最大距離
^：用於對詞項進行加權
花括號：表示範圍查詢

對於一些特殊字元的查詢，我們通常使用反斜槓進行轉義。

瞭解了Lucene的基本概念以後，我們回到正題，再來看一下Elasticsearch的一些基本概念，可能和Lucene有一些重複，不過還是有一些Elasticsearch特有的屬性。

**索引（index）：**資料儲存在索引中，可以向索引寫入檔案或者從索引讀取檔案，Elasticsearch的索引可能由一個或多個Lucene索引構成。
**檔案（document）：**檔案由欄位構成，每個欄位有它的欄位名以及一個或多個欄位值
**對映（mapping）：**用於儲存元資訊，這些元資訊決定了如何將輸入文字分割為詞條，哪些詞條應該被過濾掉等
**型別（type）：**每個檔案都有與之對應的型別，同一型別下的檔案資料結構通常保持一致，不同檔案可以有不同的對映。但是在Elasticsearch7以後已經刪除了這個概念
**節點（node）：**叢集中每個ES例項都稱作一個節點
**叢集（cluster）：**在生產環境中，我們的資料量和查詢壓力可能超過了單機負載，因此需要多個節點協同處理
**分片（shard）：**ES會將資料散落到多個Lucene索引上。這些Lucene索引稱為分片。ES會自動進行分片處理
**副本（replica）：**ES會為每個分片建立冗餘的副本，一方面分攤請求壓力，另一方面是為了保證資料不會丟失。ES支援在任意時間點新增或移除副本