探索ElasticSearch-Lucene入門(六)

阿新 • • 發佈：2019-12-31

前言

也算是使用了ElasticSearch一段時間了，但是還是沒有仔細看過Lucene相關的內容。今天來系統小結下。

這篇文章主要談論Lucene的基本架構，倒排索引，分詞器，如何使用查詢語法查詢Lucene以及Lucene和ElasticSearch的區別和聯絡。

Lucene

基本架構

檔案：索引和搜尋的主要的資料載體，包含多個欄位。
欄位：多個欄位組成一個檔案。包含具體的資訊。
詞項：由term翻譯而來。可以簡單理解為具體的資訊中拆分出來的一個個單詞。
詞條：由token翻譯而來。詞項在文字中的一次出現。不僅包含詞項的內容，而且包含開始的位置，結束的位置等資訊。
段：由Segment

翻譯而來。每個段只會被建立一次，段一但被建立了之後就不會被修改。所以，會存在段合併的過程，減少段的數量，而且搜尋的效能也會提升。段中資料的刪除只會在段合併的過程中進行。

term和token的區別是什麼？舉個例子，有下面一段文字。My brother love ElasticSearch.I love ElasticSearch,too. token為My,brother,love,ElasticSearch,I,too term為My,too

倒排索引

簡單來說，倒排索引最主要的一個特點是面向term建立索引的，而不是面向檔案建立索引的。舉個例子，假如有下面這幾個檔案。

doc1:I love ElasticSearch
doc2:I love Java
doc3:I hate sleeping
複製程式碼

如果使用傳統面向檔案的方式建立索引，那麼當使用love進行搜尋的時候，需要先遍歷doc1中所有的欄位，再遍歷doc2中所有的欄位，依次遍歷，直到最後一個doc，才能夠確定存在love這個單詞的檔案是doc1,doc2。

如果使用的是倒排索引呢？

那麼會組成以下的倒排索引。

Term	Doc
I	doc1,doc2,doc3
love	doc1,doc2
elasticsearch	doc1
java	doc2
sleeping	doc3

那麼，當使用love來搜尋的時候，最多隻需要遍歷一遍就能夠查詢到結果。直接返回doc1,doc2。優勢在於只要匹配到了term

，就可以直接返回。無需像傳統索引一樣遍歷所有的檔案。

分詞器

一段文字在Lucene中被轉化為一個一個可用於搜尋的詞項的過程叫做分析。有時候也會叫做分詞。在Lucene中是使用分詞器來進行分析(分詞)的行為的。

舉個例子

I love ElasticSearch  ->  [I,elasticsearch]
複製程式碼

這裡就是原來的文字被分詞器轉換為多個詞項。

文字分析由分析器執行，而分析器又由字元過濾器，分詞器和字元對映器組成。

那麼這三個組成又分別有什麼作用呢？

舉個例子。存在下面這樣文字。

I love! ElasticSearch.
複製程式碼

經過了字元過濾器之後

I love! ElasticSearch.   -> I lvoe ElasticSearch
複製程式碼

字元過濾器是去掉在原本文字中存在的一些不合適的字元，比如！，.等。過濾器將原本存在多種不合適的字元流轉化為合適的字元流。

接著，會經過分詞器。

I love ElasticSearch -> [I,ElasticSearch]
複製程式碼

分詞器會原來的字元流轉化為多個詞項的陣列。最終可以通過這些詞項搜尋。

[I,ElasticSearch] -> [I,elasticsearch]
複製程式碼

最後，字元對映器會將最原始的詞項統一格式，比如都轉化為小寫的詞項。這個被轉化後的詞項才會被Lucene存放。

當然，這是預設的標準分析器採用的規則。不同的分析器可以使用不同的字元過濾器，分詞器和字元對映器來完成分析的工作。

查詢語法

由查詢內容和操作符組合而成。

Lucene與ElasticSearch的聯絡

首先，ElasticSearch正是基於Lucene開發的。相對於Lucene擁有輕量級，獨立性的特點來說。ElasticSearch具有的特點就是分散式，可擴充套件，高可用的特點。

關於寫作

以後這裡每天都會寫一篇文章，題材不限，內容不限，字數不限。儘量把自己每天的思考都放入其中。

如果這篇文章給你帶來了一些幫助，可以動動手指點個贊，順便關注一波就更好了。

如果上面都沒有，那麼寫下讀完之後最想說的話？有效的反饋和你的鼓勵是對我最大的幫助。

另外打算把部落格給重新撿起來了。歡迎大家來訪問吃西瓜。

我是shane。今天是2019年9月6日。百天寫作計劃的第四十四天，44/100。

探索ElasticSearch-Lucene入門(六)

前言也算是使用了ElasticSearch一段時間了，但是還是沒有仔細看過Lucene相關的內容。今天來系統小結下。

ElasticSearch實戰系列六: Logstash快速入門和實戰

前言本文主要介紹的是ELK日誌系統中的Logstash快速入門和實戰 ELK介紹 ELK是三個開源軟體的縮寫，分別表示：Elasticsearch , Logstash, Kibana , 它們都是開源軟體。新增了一個FileBeat，它是一個輕量級的日誌收集處

Elasticsearch從入門到放棄：檔案CRUD要牢記

在Elasticsearch中，檔案（document）是所有可搜尋資料的最小單位。它被序列化成JSON儲存在Elasticsearch中。每個檔案都會有一個唯一ID，這個ID你可以自己指定或者交給Elasticsearch自動生成。

探索ElasticSearch-深入搜尋之全文搜尋（八）

前言學習需要先打好基礎，最後才能逐步深入。今天來重新探索下ElasticSearch的全文搜尋。

Elasticsearch從入門到放棄：人生若只如初見

Elasticsearch系列開坑啦，入門總是愉快的，學一學再放棄啊。 Apache Lucene簡介 Lucene基本概念

Elasticsearch從入門到放棄：索引基本使用方法

前文我們提到，Elasticsearch的資料都儲存在索引中，也就是說，索引相當於是MySQL中的資料庫。是最基礎的概念。今天分享的也是關於索引的一些常用的操作。

Elasticsearch Lucene 資料寫入原理 | ES 核心篇

前言最近 TL 分享了下《Elasticsearch基礎整理》https://www.jianshu.com/p/e8226138485d ，蹭著這個機會。寫個小文鞏固下，本文主要講 ES -> Lucene的底層結構，然後詳細描述新資料寫入 ES 和 Lucene 的流程和

探索ElasticSearch-基準測試BenchMark（五）

前言之前介紹了探索ES-物件和巢狀物件（三）和探索ES-巢狀物件和父子物件（四）,今天想來巨集觀的把握一下ElasticSearch的效能到底是怎麼樣的？

探索ElasticSearch-無任何索引資料的ElasticSearch狀態（八）

前言之前做了一些簡單的ElasticSearch的基準測試，但是現在看來還是有兩個方面的缺點。一個是不夠全面，只是簡單測試了下3種執行緒場景，另外一個是可能機器環境，感覺一直沒有壓上去。之後打算重新搞一下基準測試。

探索ElasticSearch-ElasticSearch叢集的工作原理（七）

前言 ElasticSearch為我們提供了開箱即用的特性。我們不用去關心底層的細節也能夠正常使用ElasticSearch來為我們服務。但是，如果要深入理解ElasticSearch僅僅在淺層次的使用層面肯定是遠遠不夠的。如果，你不僅僅滿

Identity使用者管理入門六（後續補充）

目前使用者管理的增刪改查及登入功能已經全部實現，但存在一個問題，登入後要取消登入按鈕顯示退出按鈕，未登入應該有註冊按鈕，現實現過程如下

Elasticsearch從入門到放棄：分詞器初印象

Elasticsearch 系列回來了，先給因為這個系列關注我的同學說聲抱歉，拖了這麼久才回來，這個系列雖然叫「Elasticsearch 從入門到放棄」，但只有三篇就放棄還是有點過分的，所以還是回來繼續更新。

Elasticsearch從入門到放棄：再聊搜尋

在前文中我們曾經聊過搜尋檔案的方法，Elasticsearch 一般適用於讀多寫少的場景，因此我們需要更多的關注讀操作。

ElasticSearch 基礎入門 and 操作索引 and 操作文件

基本概念索引：類似於MySQL的表。索引的結構為全文搜尋作準備，不儲存原始的資料。

C++面向物件入門(六)建構函式的分類和三種呼叫方式

#include <iostream> using namespace std; /** * 建構函式的分類 * 按照引數個數分類 * 1,無參建構函式

lucene入門

一、專案結構二、pom.xml <?xml version=\"1.0\" encoding=\"UTF-8\"?> <project xmlns=\"http://maven.apache.org/POM/4.0.0\"

Elasticsearch從入門到熟練使用

搜尋引擎原理一、搜尋引擎核心概念索引原理：對列值建立排序儲存，資料結構={索引，行地址}，在有序類表中就可以利用二分查詢等方式快速找到要查詢的行的地址，再根據行地址直接取資料。

ELASTICSEARCH使用入門和整合springboot

ELASTICSEARCH使用入門安裝使用的是docker進行的安裝，安裝步驟見docker筆記總結安裝完成後訪問對應ip的9200埠既可檢視到docker的各種版本資訊

java入門 (六) 陣列(二)

java入門(六)陣列(二) 陣列的使用多維陣列（二維陣列） Arrays類講解氣泡排序稀疏陣列

ElasticSearch簡單入門（二）

技術標籤：ElasticSearchelasticsearchjava IK分詞器前提：預設ES中採用標準分詞器進行分詞，但這種方式並不適用於中文網站，因此需要修改ES對中文友好分詞，從而達到更佳的搜尋的效果，IK分詞器就是一個較好的

探索ElasticSearch-Lucene入門(六)

前言

Lucene

基本架構

倒排索引

分詞器

查詢語法

Lucene與ElasticSearch的聯絡

關於寫作

相關推薦