Lucene學習總結之二：Lucene的總體架構（轉）

阿新 • • 發佈：2019-02-05

Lucene總的來說是：

一個高效的，可擴充套件的，全文檢索庫。
全部用Java實現，無須配置。
僅支援純文字檔案的索引(Indexing)和搜尋(Search)。
不負責由其他格式的檔案抽取純文字檔案，或從網路中抓取檔案的過程。

在Lucene in action中，Lucene 的構架和過程如下圖，

說明Lucene是有索引和搜尋的兩個過程，包含索引建立，索引，搜尋三個要點。

讓我們更細一些看Lucene的各元件：

被索引的文件用Document物件表示。
IndexWriter通過函式addDocument將文件新增到索引中，實現建立索引的過程。
Lucene

的索引是應用反向索引。
當用戶有請求時，Query代表使用者的查詢語句。
IndexSearcher通過函式search搜尋Lucene Index。
IndexSearcher計算term weight和score並且將結果返回給使用者。
返回給使用者的文件集合用TopDocsCollector表示。

那麼如何應用這些元件呢？

讓我們再詳細到對Lucene API 的呼叫實現索引和搜尋過程。

索引過程如下：
- 建立一個IndexWriter用來寫索引檔案，它有幾個引數，INDEX_DIR就是索引檔案所存放的位置，Analyzer便是用來對文件進行詞法分析和語言處理的。
- 建立一個Document代表我們要索引的文件。
- 將不同的Field加入到文件中。我們知道，一篇文件有多種資訊，如題目，作者，修改時間，內容等。不同型別的資訊用不同的Field來表示，在本例子中，一共有兩類資訊進行了索引，一個是檔案路徑，一個是檔案內容。其中FileReader的SRC_FILE就表示要索引的原始檔。
- IndexWriter呼叫函式addDocument將索引寫到索引資料夾中。
搜尋過程如下：
- IndexReader將磁碟上的索引資訊讀入到記憶體，INDEX_DIR就是索引檔案存放的位置。
- 建立IndexSearcher準備進行搜尋。
- 建立Analyer
  
  用來對查詢語句進行詞法分析和語言處理。
- 建立QueryParser用來對查詢語句進行語法分析。
- QueryParser呼叫parser進行語法分析，形成查詢語法樹，放到Query中。
- IndexSearcher呼叫search對查詢語法樹Query進行搜尋，得到結果TopScoreDocCollector。

以上便是Lucene API函式的簡單呼叫。

然而當進入Lucene的原始碼後，發現Lucene有很多包，關係錯綜複雜。

然而通過下圖，我們不難發現，Lucene的各原始碼模組，都是對普通索引和搜尋過程的一種實現。

此圖是上一節介紹的全文檢索的流程對應的Lucene實現的包結構。(參照http://www.lucene.com.cn/about.htm中文章《開放原始碼的全文檢索引擎Lucene》)

Lucene的analysis模組主要負責詞法分析及語言處理而形成Term。
Lucene的index模組主要負責索引的建立，裡面有IndexWriter。
Lucene的store模組主要負責索引的讀寫。
Lucene的QueryParser主要負責語法分析。
Lucene的search模組主要負責對索引的搜尋。
Lucene的similarity模組主要負責對相關性打分的實現。

瞭解了Lucene的整個結構，我們便可以開始Lucene的原始碼之旅了。、

Lucene學習總結之二：Lucene的總體架構

api 要點 iter 不同 blank 應用文件 score image Lucene總的來說是：一個高效的，可擴展的，全文檢索庫。全部用Java實現，無須配置。僅支持純文本文件的索引(Indexing)和搜索(Search)。不負責由其他格式的文件抽取純文

Lucene學習總結之二：Lucene的總體架構（轉）

Lucene總的來說是：一個高效的，可擴充套件的，全文檢索庫。全部用Java實現，無須配置。僅支援純文字檔案的索引(Indexing)和搜尋(Search)。不負責由其他格式的檔案抽取純文字檔案，或從網路中抓取檔案的過程。在Lucene in action

Lucene學習總結之七：Lucene搜尋過程解析

2.4、搜尋查詢物件 2.4.4、收集文件結果集合及計算打分在函式IndexSearcher.search(Weight, Filter, int) 中，有如下程式碼： TopScoreDocCollector collector = TopScoreDocCollector.create

Lucene學習總結之七：Lucene搜尋過程解析(1)

一、Lucene搜尋過程總論搜尋的過程總的來說就是將詞典及倒排表資訊從索引中讀出來，根據使用者輸入的查詢語句合併倒排表，得到結果文件集並對文件進行打分的過程。其可用如下圖示：總共包括以下幾個過程： IndexReader開啟索引檔案，讀取並開啟指向索引檔案的流。

Lucene學習總結之七：Lucene搜尋過程解析(7)轉

2.4、搜尋查詢物件 2.4.3.2、並集DisjunctionSumScorer(A OR B) DisjunctionSumScorer中有成員變數List<Scorer> subScorers，是一個Scorer的連結串列，每一項代表一個倒排表，Dis

Lucene學習總結之七：Lucene搜尋過程解析(5)

2.4、搜尋查詢物件 2.4.3、進行倒排表合併在得到了Scorer物件樹以及SumScorer物件樹後，便是倒排表的合併以及打分計算的過程。合併倒排表在此節中進行分析，而Scorer物件樹來進行打分的計算則在下一節分析。 BooleanScorer2.score(C

Lucene學習總結之七：Lucene搜尋過程解析(3)

2.3、QueryParser解析查詢語句生成查詢物件程式碼為： QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, "contents", new StandardAnalyzer(Version.LUCENE_CURRENT));

Lucene學習總結之七：Lucene搜尋過程解析(1)轉

Lucene學習總結之四：Lucene索引過程分析

3、將文件加入IndexWriter 程式碼： writer.addDocument(doc); -->IndexWriter.addDocument(Document doc, Analyzer analyzer) -->doFlush = docWrite

Lucene學習總結之四：Lucene索引過程分析(1)

浪費了“黃金五年”的Java程式設計師，還有救嗎？ >>>

Lucene學習總結之三：Lucene的索引檔案格式(2)

浪費了“黃金五年”的Java程式設計師，還有救嗎？ >>>

MyBatis由淺入深學習總結之二：MyBatis解決Java實體類和資料庫表字段不一致方法總結

在此，首先說明一點任何永續性框架都需要解決一個問題，那就是Java實體類的欄位一般來說基本上會與資料庫表中欄位不一致，那麼它們是如何解決的呢？咱們以Hibernate和SpringJDBC為例說明一下； 1、Hibernate中一般通過XML對映和註解的方式解決不一致問題，

OPEN(SAP) UI5 學習入門系列之二：最佳實踐練習（上）

我們暫時不用Component來做模組化，我們先用最快最簡單的方法讓程式可以跑出個樣子來，然後再慢慢的新增功能。所以，我們先直接加入MVC。簡單介紹下，MVC就是模型、檢視和控制器的簡稱，一般的Web開發都會用到這種架構用來把前端的UI和業務邏輯分離。具體先不多介紹，直接做吧。我們先大致規劃一下，我

OPEN(SAP) UI5 學習入門系列之二：最佳實踐練習（下）

可以先把程式碼下載到本地並跑起來，這樣可以對這個最佳實踐的程式有一個直觀的瞭解。頁面導航如下：銷售訂單列表(Master) -> 銷售訂單明細(Detail) -> 行專案明細(LineItem),在每個明細頁面都可以返回到上一層。具體頁面之間的導航是如何實現的呢？我們從頁面的入口

UVM序列篇之二：sequence和item（上）

技術一點目標 idt 需要開始掛載 ron 前行無論是自駕item，穿過sequencer交通站，通往終點driver，還是坐上sequence的大巴，一路沿途觀光，最終跟隨導遊停靠到風景點driver，在介紹如何駕駛item和sequence，遵守什麽交規，最終

資料結構與算法系列課程之二：複雜度分析（上）

資料結構和演算法，本身就是要解決 “快” 和 “省” 的問題。考量的指標分別就是 “時間複雜度” 和 “空間複雜度”。時間複雜度表示程式碼執行時間隨著資料規模增長的變化趨勢，也叫漸進時間複雜度。空間複雜度，全稱漸進空間複雜度，表示演算法的儲存空間和資料規模之間的增長關

硬件工程師必會電路之二極管應用上（轉）

dad sset 工作 cdd 速度快的產生 pos -c 二極管是最基本的電路器件，硬件工程師經常使用，但你未必能用對，未必能用好。比如說大家都知道接口部分一般都需要ESD保護，其實TVS瞬變電壓抑制二級管用作ESD保護就極為講究，對於USB3.0, HDMI接

Oracle數據庫中心雙活之道：ASM vs VPLEX （轉）

復用讀寫並且壓力測試發出我們 config 影響計算節點雙活方案對比：ASM vs V-PLEX 作者：王文傑 Oracle公司 Principle system analyst Oracle高級服務部 Oracle數據庫中心的災備的演變，經歷了多年的

五大常用演算法之五：分支限界法（轉）

轉載自：http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741378.html 一、基本描述類似於回溯法，也是一種在問題的解空間樹T上搜索問題解的演算法。但在一般情況下，分支限界法與回溯法的求解目標

Linux運維學習筆記之二：常用命令2

linux 運維筆記71、passwd：修改用戶密碼語法passwd [參數]username選項-k --keep-tokens ：保留即將過期的用戶在期滿後仍能使用-l --lock ：鎖定用戶無權更改其密碼，只能root才能操作-u --unlock ：解除鎖定-S --status ：查看用戶狀

Lucene學習總結之二：Lucene的總體架構（轉）

相關推薦