5分鐘瞭解lucene

阿新 • • 發佈：2019-01-14

本文通俗地介紹了Lucene全文檢索的內容及工作原理，以及索引的結構，旨在讓以前未了解過Lucene的讀者在能在短時間內對Lucene有簡單認知，未介紹具體程式碼，讀完本文可知道Lucene是什麼，有哪些具體應用，我們一直說的索引是什麼。

Lucene介紹及應用

Apache Lucene是當下最為流行的開源全文檢索工具包，基於JAVA語言編寫。

目前基於此工具包開源的搜尋引擎，成熟且廣為人知的有Solr和Elasticsearch。2010年後Lucene和Solr兩個專案由同一個Apache軟體基金會的開發團隊製作，所以通常我們看到的版本都是同步的。二者的區別是Lucene是工具包，而Solr是基於Lucene製作的企業級搜尋應用。另外，我們常用的Eclipse，幫助系統的搜尋功能也是基於Lucene實現的。

Lucene的兩項工作

我們的生活物品中，漢語字典與全文索引是很相似的。我們拿拼音查字法舉例，首先我們通過拼音找到我們要查字的頁數，然後翻到該頁，閱讀這個字的詳細解釋。

在上面的例子中，我們提到了兩個要素：一個是字典，另一個是查字的過程。對應到Lucene的功能上，一個是我們要建立一個字典，這個過程叫做建立索引，另一個是根據搜尋詞基於索引進行查詢。

建立索引

1. 文件的準備（Document）

文件就是指我們要去搜索的原文。

2. 分片語件（Tokenizer）

將第一步的文件進行詞語切割，去除標點，去除無用詞，比如“是”，“的”等。常用的開源中文分片語件有MMSEG4J、IKAnalyzer等。切割後的詞語我們稱為詞元（Token）。

3. 語言處理（Linguistic Processor）

將上一步的獲得的詞元進行處理，比如英文的大寫轉小寫，複數變單數，過去時分詞轉原形等。此時得到的結果，被稱作詞(Term)

4. 索引元件

索引元件將上步得到的詞，生成索引和詞典，儲存到磁碟上。索引元件先將Term變成字典，然後對字典進行排序，排序後對相同的詞進行合併，形成倒排列表。每個詞在列表中儲存了對應的文件Id（Document Frequency）以及這個詞在這個文件中出現了幾次（Term Frequency）。

搜尋

1. 輸入查詢詞

2. 詞法分析及語言處理

對輸入的詞進行拆分，關鍵字識別(AND,NOT)等。對拆分的詞元進行語言處理，與建立字典時語言處理的過程相同。由關鍵字與處理後的詞生成語法樹。

3. 搜尋索引，獲得符合語法樹的文件

如A and B not C形成的語法樹，則會搜尋包含A B C的文件列表，然後用A和B的文件列表做交集，結果集與C做差集，得到的結果，就是符合搜尋條件的文件列表

4. 根據相關性，對搜尋結果排序

通過向量空間模型的演算法，得到結果的相關性。比較簡單的實現描述如下：在建立索引的時候，我們得到了Document Frequency和Term Frequency，Term Frequency越高，說明文件的相關性越高；Document Frequency越高，說明相關性越弱。這個演算法可以自己進行實現。

5. 根據上面的排序結果，返回文件。

索引結構

Lucene的索引結構是有層次結構的。我們以下圖為例

索引(Index)

如果拿資料庫做類比，索引類似於資料庫的表。

在Lucene中一個索引是放在一個資料夾中的。所以可以理解索引為整個資料夾的內容。

段(Segment)

如果拿資料庫做類比，段類似於表的分割槽。

索引下面引入了Segment 的概念，一個索引下可以多個段。當flush或者commit時生成段檔案。截圖中有0，1兩個段。segments.gen和segments_5是段的元資料檔案，它們儲存了段的屬性資訊。其他的檔案對應的就是各段的檔案，稍後會詳細說明各檔案的用處。

索引的寫入是順序的，只能被追加，不能被修改。當索引要刪除時，在.del檔案中寫入對應的docId。查詢的時候會過濾到此docId。另外索引的修改，是對Document進行刪除後做的追加。這種設計保證了高吞吐量。

分段的設計能保證查詢的高效，當段太大時，查詢會產生很大的IO消耗。段太小，則需要查詢的段太多。所以lucene對段進行了合併，另外刪除的資料也是在合併過程中過濾掉的。4.0之前的預設的合併策略為LogMergePolicy，這個策略會合並小於指定值的相鄰段，如果兩個相鄰段，一個大小為1G，一個大小為1k，則會重寫1G的檔案會佔用很大資源。4.0之後預設策略改為了TieredMergePolicy，這個策略會先按分段大小進行排序，對段進行刪除比計算，優先合併小的分段。當系統閒暇的時候，才對大分段進行合併。

文件(Document)

如果拿資料庫做類比，文件類似於資料的一行。

Document是索引的基本單位。一個段可以有多個Document

域(Field)

如果拿資料庫做類比，域相當於表的欄位。

Doument裡可以有多個Field。Lucene提供多種不同型別的Field，例如StringField、TextField、LongFiled或NumericDocValuesField等。

詞(Term)

Term是索引的最小單位。Term是由Field經過Analyzer（分詞）產生。

段的檔案說明

第三小節詳細描述了段的設計和合並策略，以下詳細講解一些段檔案的內容。

segments_N儲存了此索引包含多少個段，每個段包含多少篇文件。

*.fnm

儲存了此段包含了多少個域，每個域的名稱及索引方式。

*.fdx，*.fdt

儲存了此段包含的所有文件，每篇文件包含了多少域，每個域儲存了那些資訊。

*.tvx，*.tvd，*.tvf

儲存了此段包含多少文件，每篇文件包含了多少域，每個域包含了多少詞，每個詞的字串，位置等資訊。

*.tis，*.tii

儲存了詞典(Term Dictionary)，也即此段包含的所有的詞按字典順序的排序。

*.frq

儲存了倒排表，也即包含每個詞的文件ID列表。

*.prx

儲存了倒排表中每個詞在包含此詞的文件中的位置

*.del

前面講段的時候有提到，用來是儲存刪掉文件id的。

5分鐘瞭解lucene

5分鐘瞭解lucene

5分鐘瞭解赴港上市公司CEO薪酬

5分鐘瞭解swagger

5分鐘瞭解Arcgis繪製地圖的方法步驟

5分鐘瞭解Thymeleaf的標準方言(Standard dialects)

5分鐘瞭解Mockito

5分鐘瞭解阿里時序時空資料庫

好程式設計師Java學習路線分享5分鐘瞭解基數排序

5分鐘瞭解Prometheus

5分鐘讓你瞭解 ZooKeeper 的功能和原理

DevOps是什麼？5分鐘帶你瞭解DevOps

設計模式23種全解析（5分鐘徹底瞭解23種設計模式）

獲得PCC效能大賽背後的RocksDB引擎:5分鐘全面瞭解其原理

5分鐘，瞭解通證派孟巖眼中的區塊鏈認知問題

Python的5種傳參姿勢,花兩分鐘瞭解一下

比特幣 = 區塊鏈？5 分鐘讓你真正瞭解區塊鏈

5分鐘快速瞭解MySQL索引的各種型別

鏡像的分層結構 - 每天5分鐘玩轉容器技術（11）

web 實現5分鐘鼠標鍵盤無操作，自動退出登陸

5分鐘帶你學習瀏覽器8大數據存儲技術

5分鐘瞭解lucene

相關推薦