初識Elastic search—附《Elasticsearch權威指南—官方guide的譯文》

阿新 • • 發佈：2020-07-24

本文作為Elastic search系列的開篇之作，簡要介紹其簡要歷史、安裝及基本概念和核心模組。

簡史

Elastic search基於Lucene（資訊檢索引擎，ES裡一個index—索引，一個索引指向一個或者多個分片—shards，一個分片就是一個Lucene例項。Lucene的作者——Doug Cutting同是也是hadoop的作者）。

ES的誕生於04年，Shay Banon——據傳剛失業又新婚，禍不單行（港蓉蒸蛋糕，蒸的嗎），在Lucene的基礎上為他去倫敦學廚師的老婆做的食譜搜尋。一不小心，搞出了ES，然而老婆大人的食譜搜尋卻遙遙無期，估計Shay在家鍵盤跪爛。

然後呢，官網出了個Kibana (ELK—Elasticsearch, logstash, kibana三劍客之一，另外Elastic認證瞭解一下——截止目前國內考過的不足500人），一個web應用程式，用圖表啊、地圖啊等面板來視覺化資料（影象天然具有親和力，詳見 Guide， 初步的安裝及說明詳見附錄5），如下圖:

安裝

windows上安裝Elastic search 請參考附註2 連結（需要安裝IK分詞器，以更好的支援漢語分詞；安裝elasticsearch-head ，簡單的視覺化的web客戶端，可支援基本的查詢操作或者通過DSL檢索結果——為支援它，需要裝Node.js

; node.js 又需要整合 npm 和 grunt）

elasticsearch-head 效果如下圖：

核心概念

Elastic Search是一個實時分散式搜尋和分析引擎，處理大資料相當的擅長。Stackoverflow、Github、Wiki以及英國衛報等在全文檢索、程式碼搜尋（Github超過1300億行）、地理位置查詢、社交網路實時資料等領域均廣泛深入的使用了ES，國內的位元組跳動、騰訊、阿里、百度均有相關應用。目前認為其核心概念包括：

Score

就是根據一套規則和演算法，滿足搜尋條件的文件，其中相關資訊的匹配度（或稱之為相關度），打分越高，則匹配度越高，搜尋結果按打分高低（匹配度）倒敘展示。如下圖的一個搜尋結果：

具體的Score，涉及到Norm（歸一化）和Boost（可以設定field和document的Boot—相當於權重的概念）

叢集（Cluster）、節點（Node）和分片（shards）

叢集即多臺物理機構成，每個物理機包含多個節點（其中只有一個Master Node），每個節點包含多個分片，每個分片可以有0個或多個複製分片做必要的資料冗餘。其分散式特性，通過底層的如下操作自動完成：

（1）將你的文件分割槽到不同的容器或者分片(shards)中，它們可以存在於一個或多個節點中。

（2）將分片均勻的分配到各個節點，對索引和搜尋做負載均衡。冗餘每一個分片，防止硬體故障造成的資料丟失。

（3）將叢集中任意一個節點上的請求路由到相應資料所在的節點。

（4）無論是增加節點，還是移除節點，分片都可以做到無縫的擴充套件和遷移。

索引（Index）

Elastic Search使用倒排索引（Inverted Index）來做快速的全文搜尋（不同於一般資料庫的索引，用B-Tree來實現）。具體倒排索引原理，可能需要單獨的一篇部落格來說明

分詞（analysis）

分析(analysis)是這樣一個過程：

（1）首先，表徵化一個文字塊為適用於倒排索引單獨的詞(term)

（2）然後標準化這些詞為標準形式，提高它們的“可搜尋性”或“查全率”

這個工作是分析器(analyzer)完成的。一個分析器(analyzer)包含如下三個功能：

　　（1）字元過濾器

　　首先字串經過字元過濾器(character filter)，它們的工作是在表徵化（譯者注：這個詞叫做斷詞更合適）前處理字串。字元過濾器能夠去除HTML標記，或者轉換 "&" 為 "and" 。

　　（2）分詞器

　　下一步，分詞器(tokenizer)被表徵化（斷詞）為獨立的詞。一個簡單的分詞器(tokenizer)可以根據空格或逗號將單詞分開（譯者注：這個在中文中不適用）。

　　（3）表徵過濾

　　最後，每個詞都通過所有表徵過濾(token filters)，它可以修改詞（例如將 "Quick" 轉為小寫），去掉詞（例如停用詞像 "a" 、 "and"``"the" 等等），或者增加詞（例如同義詞像 "jump" 和 "leap" ）

欄位共享

ES本質上和關係型資料庫還是有差別，並不能和DB的各個概念完全對應。默認同名的Fields在整個Indices共享，因此你不能在Type裡定義同名的多個Filelds，導致刪除資料只能整個索引一起刪除，而不能單單刪除一個Type

基礎知識

文件

Elastic search是面向文件的，文件歸屬於一種型別（type），而這些type存在（索引）index裡。傳統關係資料庫和ES的簡單對比如下圖（6.0版本後預設支援single type，涉及欄位共享的優化）：

Relational DB	Databases	Tables	Rows	Columns
ElasticSearch	Indices	Types	Documents	Fields

　　 2.檢索文件

支援HTTP的GET、PUT、HEAD、DELETE（由於欄位共享等原因，ES目前不支援刪除表，只能整個索引一起刪除）、POST操作，如下圖（故可直接用postman、SoapUI、Chrome外掛ElasticSearch Head 等工具發http請求來查詢文件）：

ES提供豐富靈活的查詢語句（另外Elasticsearch-sql外掛可以自動將sql語句翻譯為DSL）——Query DSL（基本的語法有filter,bool—包括should【類似於Or】、must【類似於and】, term—精確匹配, match，range,exists,missing等），有了它構建複雜、強大的查詢都不事兒，如下圖（用postman，查詢 age > 30 且 last_name = "smith"）：

　 3. 欄位資料型別

官方文件：Mapping types (Mapping——對映，相當於關係資料庫的表結構定義）

核心資料型別 (只列工作中常用的）：

Data Types	Values
String	text, keyword
數值型別（Numberic dataTypes）	long, integer, short, byte, double, float
日期型別	date
布林型別	boolean
範圍型別	integer_range, float_range, long_range, double_range, date_range
二進位制型別	binary

複雜資料型別

Data Types	Values
陣列型別	不需要特殊的資料型別支援
Object type	object — 代表單個json
巢狀型別	nested — 代表一組json

地理相關的資料型別

Data Types	Values
座標點型別	geo_point用來表徵經緯度
地理圖形型別	geo_shape用來表徵複雜的形狀，如多邊形

專門的資料型別

Data Types	Values
IP型別	ip — 用於IPv4和IPv6(專案中高頻使用）
token數量型別	token_count — 統計字串中token的數量

尾聲

（1）ES不支援Join，但支援aggregations，類似於SQL的group by

（2）通過Merge segments可以提高查詢速度，最後Merge成的Segments個數越小，查詢時間提高的越快。Merge segments過程比較耗費磁碟和CPU，所以建議凌晨執行該操作

（3）ES支援將各種資料庫的資料匯入，主要通過logstash;ES之間的資料拷貝，可以用elasticdump

致敬 Doug Cutting (Lucene、Nutch 、Hadoop之父)

談到成功，Cutting認為他的成功主要歸功於兩點：

對自己工作的熱情（Cutting在大學時就開始做Infrastracture類的程式，還用 Lisp為Emacs貢獻過程式碼，他非常喜歡自己的程式被千萬人使用的感覺）
目標不要定得過大，要踏踏實實，一步一個腳印

附：

1) 官網guide 及對應中文版 — Elasticsearch: 權威指南（pdf下載）

2) Elasticsearch6.4.0-windows環境部署安裝

3) Linkin of Doug Cutting

4) Hadoop 十歲生日時 Doug Cutting的講話

5) Kibana（一張圖片勝過千萬行日誌）

*******************************************************************************

精力有限，想法太多，專注做好一件事就行

我只是一個程式猿。5年內把程式碼寫好，技術部落格字字推敲，堅持零拷貝和原創
寫部落格的意義在於打磨文筆，訓練邏輯條理性，加深對知識的系統性理解；如果恰好又對別人有點幫助，那真是一件令人開心的事

***************************************************************************

初識Elastic search—附《Elasticsearch權威指南—官方guide的譯文》

初識Elastic search—附《Elasticsearch權威指南—官方guide的譯文》

Elasticsearch: 權威指南（官方教程）

Elasticsearch教程 Elasticsearch查詢語法 Elasticsearch權威指南深入理解Elasticsearch

ElasticSearch權威指南學習（分散式叢集）

ElasticSearch權威指南學習（對映和分析）

讀書筆記－ElasticSearch權威指南

《ElasticSearch權威指南》學習筆記

Elasticsearch權威指南部分知識點總結整理

Easticsearch官網《Elasticsearch權威指南》筆記4——聚合

Easticsearch官網《Elasticsearch權威指南》筆記2——文件基本操作

Easticsearch官網《Elasticsearch權威指南》筆記3——搜尋

elasticsearch 權威指南入門閱讀筆記(一)

Elasticsearch: 權威指南 » 深入搜尋 » 近似匹配 » 多值欄位

《Netty權威指南(第2版)》電子書附下載連結+30個總結JVM虛擬機器的技術文排版好（收藏版）

《Hadoop權威指南大資料的儲存與分析第版修訂版升級版》pdf附網盤下載連結+（附一個菜鳥的java學習之路）

《Netty權威指南(第2版)》pdf附網盤下載連結+（附一個菜鳥的java學習之路）

《Kubernetes權威指南：從Docker到Kubernetes實踐全接觸》pdf附網盤下載連結+（附一個菜鳥的java學習之路）

《Kafka權威指南》——初識 Kafka

spring data elastic search初識

Elastic Search初識之吐槽

初識Elastic search—附《Elasticsearch權威指南—官方guide的譯文》

相關推薦