二：Lucene的總體架構

阿新 • • 發佈：2019-02-03

Lucene總的來說是：

一個高效的，可擴充套件的，全文檢索庫。
全部用Java實現，無須配置。
僅支援純文字檔案的索引(Indexing)和搜尋(Search)。
不負責由其他格式的檔案抽取純文字檔案，或從網路中抓取檔案的過程。

在Lucene in action中，Lucene 的構架和過程如下圖，

[圖]Lucene的構架和過程

說明Lucene 是有索引和搜尋的兩個過程，包含索引建立，索引，搜尋三個要點。

讓我們更細一些看Lucene的各元件：

[圖]Lucene各元件

被索引的文件用Document物件表示。
IndexWriter 通過函式addDocument 將文件新增到索引中，實現建立索引的過程。
Lucene 的索引是應用反向索引。
當用戶有請求時，Query 代表使用者的查詢語句。
IndexSearcher 通過函式search 搜尋Lucene Index 。
IndexSearcher 計算term weight 和score 並且將結果返回給使用者。
返回給使用者的文件集合用TopDocsCollector 表示。

那麼如何應用這些元件呢？

讓我們再詳細到對Lucene API 的呼叫實現索引和搜尋過程。

[圖]Lucene API的呼叫

索引過程如下：
- 建立一個IndexWriter 用來寫索引檔案，它有幾個引數，INDEX_DIR 就是索引檔案所存放的位置，Analyzer 便是用來對文件進行詞法分析和語言處理的。
- 建立一個Document 代表我們要索引的文件。
- 將不同的Field 加入到文件中。我們知道，一篇文件有多種資訊，如題目，作者，修改時間，內容等。不同型別的資訊用不同的Field 來表示，在本例子中，一共有兩類資訊進行了索引，一個是檔案路徑，一個是檔案內容。其中FileReader 的SRC_FILE 就表示要索引的原始檔。
- IndexWriter 呼叫函式addDocument 將索引寫到索引資料夾中。
搜尋過程如下：
- IndexReader 將磁碟上的索引資訊讀入到記憶體，INDEX_DIR 就是索引檔案存放的位置。
- 建立IndexSearcher 準備進行搜尋。
- 建立Analyer 用來對查詢語句進行詞法分析和語言處理。
- 建立QueryParser 用來對查詢語句進行語法分析。
- QueryParser 呼叫parser 進行語法分析，形成查詢語法樹，放到Query 中。
- IndexSearcher 呼叫search 對查詢語法樹Query 進行搜尋，得到結果TopScoreDocCollector 。

以上便是Lucene API函式的簡單呼叫。

然而當進入Lucene的原始碼後，發現Lucene有很多包，關係錯綜複雜。

然而通過下圖，我們不難發現，Lucene的各原始碼模組，都是對普通索引和搜尋過程的一種實現。

此圖是上一節介紹的全文檢索的流程對應的Lucene實現的包結構。(參照http://www.lucene.com.cn/about.htm 中文章《開放原始碼的全文檢索引擎Lucene》)

[圖]Lucene包結構

Lucene 的analysis 模組主要負責詞法分析及語言處理而形成Term 。
Lucene 的index 模組主要負責索引的建立，裡面有IndexWriter 。
Lucene 的store 模組主要負責索引的讀寫。
Lucene 的QueryParser 主要負責語法分析。
Lucene 的search 模組主要負責對索引的搜尋。
Lucene 的similarity 模組主要負責對相關性打分的實現。

瞭解了Lucene的整個結構，我們便可以開始Lucene的原始碼之旅了。

Lucene學習總結之二：Lucene的總體架構

api 要點 iter 不同 blank 應用文件 score image Lucene總的來說是：一個高效的，可擴展的，全文檢索庫。全部用Java實現，無須配置。僅支持純文本文件的索引(Indexing)和搜索(Search)。不負責由其他格式的文件抽取純文

二：Lucene的總體架構

Lucene總的來說是：一個高效的，可擴充套件的，全文檢索庫。全部用Java實現，無須配置。僅支援純文字檔案的索引(Indexing)和搜尋(Search)。不負責由其他格式的檔案抽取純文字檔案，或從網路中抓取檔案的過程。在Lucene in action中，Luce

Lucene學習總結之二：Lucene的總體架構（轉）

Lucene總的來說是：一個高效的，可擴充套件的，全文檢索庫。全部用Java實現，無須配置。僅支援純文字檔案的索引(Indexing)和搜尋(Search)。不負責由其他格式的檔案抽取純文字檔案，或從網路中抓取檔案的過程。在Lucene in action

搜索引擎系列二：Lucene（Lucene介紹、Lucene架構、Lucene集成）

核心模塊純java 進行 org sea 能力高亮排序 hat 一、Lucene介紹 1. Lucene簡介　　最受歡迎的java開源全文搜索引擎開發工具包。提供了完整的查詢引擎和索引引擎，部分文本分詞引擎（英文與德文兩種西方語言）。Lucene的目的是為軟件開發人

Lucene系列二：Lucene（Lucene介紹、Lucene架構、Lucene整合）

一、Lucene介紹1. Lucene簡介　　最受歡迎的java開源全文搜尋引擎開發工具包。提供了完整的查詢引擎和索引引擎，部分文字分詞引擎（英文與德文兩種西方語言）。Lucene的目的是為軟體開發人員提供一個簡單易用的工具包，以方便在目標系統中實現全文檢索功能，或者是以此為

細說shiro之二：組件架構

定義 then lms 信息 auth 自己的 apach cache author 官網：https://shiro.apache.org/ Shiro主要組件包括：Subject，SecurityManager，Authenticator，Authorizer，Ses

.net core 和 WPF 開發升訊威線上客服與營銷系統：系統總體架構

本系列文章詳細介紹使用 .net core 和 WPF 開發升訊威線上客服與營銷系統的過程。本產品已經成熟穩定並投入商用。線上演示環境：[https://kf.shengxunwei.com](https://kf.shengxunwei.com) 注意：演示環境僅供演示交流與評估，不保證 7x24 小

爬蟲（二）：Lucene

搜尋引擎: * 什麼是搜尋引擎 * 搜尋引擎基本執行原理 * 原始資料庫做搜尋有什麼弊端 * 倒排索引(敲黑板) lucene lucene相關的概念 lucene和solr的關係 lucene入門程式(寫入索引的操作程式碼)

圖資料庫JanusGraph介紹及使用(二)：架構

圖資料庫JanusGraph介紹及使用(二)：架構作者：家輝，日期：2018-07-03 CSDN部落格： http://blog.csdn.net/gobitan 說明：這是圖資料庫JanusGraph系列的第二篇，後面會陸續介紹。圖資料庫JanusGraph

基礎架構二：Docker倉庫

step1 倉庫搭建 registry&web wget https://ra.githubusercontent.com/Thomas-YangHT/shell/master/docker-registry-srv.sh&nb

解析微服務架構(二)：微服務重構應用及IBM解決方案

解析微服務架構系列文章將分幾篇描述微服務的定義、特點、應用場景、企業整合架構的演進以及微服務轉型思路和技術決策考慮等內容，並以IBM技術為例介紹如何實現微服務架構轉型。上一篇文章介紹了融入微服務的企業整合架構的演進，並介紹互動式系統的微服務模式及技術決策例子。本篇文章將介紹已有IT應用如

基於電商中臺架構-商品系統設計(二)：類目設計

一、概念定義 1.什麼是類目類目簡單來說就是商品的分類，用大家最常用的淘寶來看，就是圖中圈出來的地方。為什麼會有類目，也是其功能決定的，類目目前已經作為電商網站導航的標配，只是不同網站的類目不同罷了。如果我們的網站只有幾十個、上百個商品，或許類目對於我們來說不重要，但是如果商品有成千上萬個，

基於Maven的SSM總體架構設計（二）

3 總體設計 3.1 約定 3.1.1 基於Maven的工程結構為了便於本團隊對新建Java專案的工程結構及依賴庫（jar）的版本統一，降低團隊成員之間的溝通成本，減少因依賴庫版本不一致導致的異常，我們約定建立標準的Maven工程。即在MyE

IM開發基礎知識補課(二)：如何設計大量圖片檔案的服務端儲存架構？

1、前言一個完善的IM系統中通常充斥著大量的圖片內容，包括：使用者頭像、圖片訊息、相簿、圖片表情等等，那麼在做服務端架構設計時該如何儲存這些圖片呢？本文分享的是典型Web應用中大量圖片的服務端儲存加構的演進過程，但基本的技術原理和架構思路對於IM系統而言同樣適用，所以在閱

【U3D系統架構教程——開發篇】之二：Log日誌系統2.0

這篇文章由唐三胖ヾ(•ω•`)o網路整理總結，將告訴你如何開發一個高效率的日誌系統。通過這篇文章，你可以知道 1）C#特性Condtional 2）開發2.0版的日誌系統開篇介紹通過上一章節的介紹，我們已經實現了重寫的日誌

Spark(二) ：基本架構解析

1，spark基礎及體系架構 1.1 spark why? Apache Spark是一個圍繞速度、易用性和複雜分析構建的大資料處理框架，最初在2009年由加州大學伯克利分校的AMPLab開發，並於2010年成為Apache的開源專案之一，與Hadoop和Storm等其他大資料

架構系列二：使用Nginx+tomcat實現叢集部署

在前面的一篇文章《架構系列一：系統架構的演變》中，簡單介紹了系統架構的演變，從單機到叢集部署，現在的企業級專案，可以說99.99%以上的專案，都是叢集部署，當叢集中的一個節點出現故障，會自動切換另一個節點，實現故障自動轉移，現在就基於Nginx+tomcat搭建

綱舉目張：打通MySQL架構和業務的任督二脈

目前，在很多OLTP場景中，MySQL資料庫都有著廣泛的應用，也有很多不同的使用方式。從資料庫的業務需求、架構設計、運營維護、再到擴容遷移，不同的MySQL架構有不同的特點，適應一定的業務場景，或者解決一定的業務問題。 DBA作為資料庫架構的設計、實施、維護人員，不僅要對各種MySQL架構非常熟悉，

ES：Elasticsearch的架構（二）

Gateway層 es用來儲存索引檔案的一個檔案系統且它支援很多型別，例如：本地磁碟、共享儲存（做snapshot的時候需要用到）、hadoop的hdfs分散式儲存、亞馬遜的S3。它的主要職責是用來對資料進行長持久化以及整個叢集重啟之後可以通過gateway重新恢復資料。 Distribut

【Java 安全技術探索之路系列：J2SE安全架構】之二：安全管理器

一安全管理器的功能安全管理器是一個允許程式實現安全策略的類，它會在執行階段檢查需要保護的資源的訪問許可權及其它規定的操作許可權，保護系統免受惡意操作攻擊，以達到系統的安全策略。安全管理器負責檢查的操作主要包括以下幾個：建立一個新的類載入器

二：Lucene的總體架構

相關推薦