Lucene學習總結之二：Lucene的總體架構

阿新 • • 發佈：2017-11-02

api 要點 iter 不同 blank 應用文件 score image

Lucene總的來說是：

一個高效的，可擴展的，全文檢索庫。
全部用Java實現，無須配置。
僅支持純文本文件的索引(Indexing)和搜索(Search)。
不負責由其他格式的文件抽取純文本文件，或從網絡中抓取文件的過程。

在Lucene in action中，Lucene 的構架和過程如下圖，

技術分享

說明Lucene 是有索引和搜索的兩個過程，包含索引創建，索引，搜索三個要點。

讓我們更細一些看Lucene的各組件：

技術分享

被索引的文檔用Document對象表示。
IndexWriter 通過函數addDocument 將文檔添加到索引中，實現創建索引的過程。
Lucene 的索引是應用反向索引。
當用戶有請求時，Query 代表用戶的查詢語句。
IndexSearcher 通過函數search 搜索Lucene Index 。
IndexSearcher 計算term weight 和score 並且將結果返回給用戶。
返回給用戶的文檔集合用TopDocsCollector 表示。

那麽如何應用這些組件呢？

讓我們再詳細到對Lucene API 的調用實現索引和搜索過程。

技術分享

索引過程如下：
- 創建一個IndexWriter 用來寫索引文件，它有幾個參數，INDEX_DIR 就是索引文件所存放的位置，Analyzer 便是用來對文檔進行詞法分析和語言處理的。
- 創建一個Document 代表我們要索引的文檔。
- 將不同的Field 加入到文檔中。我們知道，一篇文檔有多種信息，如題目，作者，修改時間，內容等。不同類型的信息用不同的Field 來表示，在本例子中，一共有兩類信息進行了索引，一個是文件路徑，一個是文件內容。其中FileReader 的SRC_FILE 就表示要索引的源文件。
- IndexWriter 調用函數addDocument 將索引寫到索引文件夾中。
搜索過程如下：
- IndexReader 將磁盤上的索引信息讀入到內存，INDEX_DIR 就是索引文件存放的位置。
- 創建IndexSearcher 準備進行搜索。
- 創建Analyer 用來對查詢語句進行詞法分析和語言處理。
- 創建QueryParser 用來對查詢語句進行語法分析。
- QueryParser 調用parser 進行語法分析，形成查詢語法樹，放到Query 中。
- IndexSearcher 調用search 對查詢語法樹Query 進行搜索，得到結果TopScoreDocCollector 。

以上便是Lucene API函數的簡單調用。

然而當進入Lucene的源代碼後，發現Lucene有很多包，關系錯綜復雜。

然而通過下圖，我們不難發現，Lucene的各源碼模塊，都是對普通索引和搜索過程的一種實現。

此圖是上一節介紹的全文檢索的流程對應的Lucene實現的包結構。(參照http://www.lucene.com.cn/about.htm 中文章《開放源代碼的全文檢索引擎Lucene》)

技術分享

Lucene 的analysis 模塊主要負責詞法分析及語言處理而形成Term 。
Lucene 的index 模塊主要負責索引的創建，裏面有IndexWriter 。
Lucene 的store 模塊主要負責索引的讀寫。
Lucene 的QueryParser 主要負責語法分析。
Lucene 的search 模塊主要負責對索引的搜索。
Lucene 的similarity 模塊主要負責對相關性打分的實現。

Lucene學習總結之二：Lucene的總體架構

api 要點 iter 不同 blank 應用文件 score image Lucene總的來說是：一個高效的，可擴展的，全文檢索庫。全部用Java實現，無須配置。僅支持純文本文件的索引(Indexing)和搜索(Search)。不負責由其他格式的文件抽取純文

Lucene學習總結之二：Lucene的總體架構（轉）

Lucene總的來說是：一個高效的，可擴充套件的，全文檢索庫。全部用Java實現，無須配置。僅支援純文字檔案的索引(Indexing)和搜尋(Search)。不負責由其他格式的檔案抽取純文字檔案，或從網路中抓取檔案的過程。在Lucene in action

Lucene學習總結之七：Lucene搜尋過程解析

2.4、搜尋查詢物件 2.4.4、收集文件結果集合及計算打分在函式IndexSearcher.search(Weight, Filter, int) 中，有如下程式碼： TopScoreDocCollector collector = TopScoreDocCollector.create

Lucene學習總結之七：Lucene搜尋過程解析(1)

一、Lucene搜尋過程總論搜尋的過程總的來說就是將詞典及倒排表資訊從索引中讀出來，根據使用者輸入的查詢語句合併倒排表，得到結果文件集並對文件進行打分的過程。其可用如下圖示：總共包括以下幾個過程： IndexReader開啟索引檔案，讀取並開啟指向索引檔案的流。

Lucene學習總結之七：Lucene搜尋過程解析(7)轉

2.4、搜尋查詢物件 2.4.3.2、並集DisjunctionSumScorer(A OR B) DisjunctionSumScorer中有成員變數List<Scorer> subScorers，是一個Scorer的連結串列，每一項代表一個倒排表，Dis

Lucene學習總結之七：Lucene搜尋過程解析(5)

2.4、搜尋查詢物件 2.4.3、進行倒排表合併在得到了Scorer物件樹以及SumScorer物件樹後，便是倒排表的合併以及打分計算的過程。合併倒排表在此節中進行分析，而Scorer物件樹來進行打分的計算則在下一節分析。 BooleanScorer2.score(C

Lucene學習總結之七：Lucene搜尋過程解析(3)

2.3、QueryParser解析查詢語句生成查詢物件程式碼為： QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, "contents", new StandardAnalyzer(Version.LUCENE_CURRENT));

Lucene學習總結之七：Lucene搜尋過程解析(1)轉

Lucene學習總結之四：Lucene索引過程分析

3、將文件加入IndexWriter 程式碼： writer.addDocument(doc); -->IndexWriter.addDocument(Document doc, Analyzer analyzer) -->doFlush = docWrite

Lucene學習總結之四：Lucene索引過程分析(1)

浪費了“黃金五年”的Java程式設計師，還有救嗎？ >>>

Lucene學習總結之三：Lucene的索引檔案格式(2)

浪費了“黃金五年”的Java程式設計師，還有救嗎？ >>>

MyBatis由淺入深學習總結之二：MyBatis解決Java實體類和資料庫表字段不一致方法總結

在此，首先說明一點任何永續性框架都需要解決一個問題，那就是Java實體類的欄位一般來說基本上會與資料庫表中欄位不一致，那麼它們是如何解決的呢？咱們以Hibernate和SpringJDBC為例說明一下； 1、Hibernate中一般通過XML對映和註解的方式解決不一致問題，

Linux運維學習筆記之二：常用命令2

linux 運維筆記71、passwd：修改用戶密碼語法passwd [參數]username選項-k --keep-tokens ：保留即將過期的用戶在期滿後仍能使用-l --lock ：鎖定用戶無權更改其密碼，只能root才能操作-u --unlock ：解除鎖定-S --status ：查看用戶狀

《逐夢旅程：Windows遊戲編程之從零開始》學習筆記之二：GDI框架

register 開發操作程序 turn use 繪制 cal 完整 1 //===========================================【程序說明】=================================== 2 //

Memcached學習筆記之二：入門使用

使用現在伺服器已經正常運行了，下面我們就來寫java的客戶端連線程式。將java_memcached-release.zip解壓，把java_memcached-release.jar檔案複製到java專案的lib目錄下，然後我們來編寫程式碼，比如我提供的一個應用類如下： &n

CAN匯流排學習記錄之二：系統結構與幀結構

CAN匯流排系統結構 CAN 控制器接收控制單元中微處理器發出的資料，處理資料並傳給 CAN 收發器 CAN 收發器將資料傳到匯流排 or 從匯流排接收資料給 CAN 控制器 CAN 資料傳遞終端避免資料傳輸終了反射回來 CAN 資料匯流排傳輸資料的資料線，兩根：CAN-hig

雜湊學習演算法之二：基於hash的ANN框架

在上一節瞭解了ANN的背景，簡單介紹了hash的演算法，那基於hash的ANN框架是怎樣的呢？框架圖框架說明基於hash的ANN主要有四個步驟，包括特徵提取、hash編碼（學習+編碼）、漢明距離排序、重排序。 1、特徵提取有查詢影象和影象資料庫，需要對這兩類分別

hive程式設計指南學習筆記之二：hive資料庫及其中的表查詢

show databases; /*

spring4.1.8初始化原始碼學習三部曲之二：setConfigLocations方法

本章是學習spring4.1.8初始化原始碼的第二篇，前一章《spring4.1.8初始化原始碼學習三部曲之一：AbstractApplicationContext構造方法》對AbstractApplicationContext的初始化做了分析，本章我們聚焦

Jenkins學習使用之二： Linux節點增加

一、通過Jenkins的“系統管理-->節點管理”，點選“新建節點”，輸入節點名稱，選擇“固定節點”或者“複製現有節點”,然後點選“確定”。二、在下列頁面中填入必要的資訊： 1、併發構建數：在此節點上可以同時執行的構建job數量，在此預設為1 2

Lucene學習總結之二：Lucene的總體架構

相關推薦