跟我一起雲端計算（4）——lucene

阿新 • • 發佈：2022-05-04

瞭解lucene的基本概念

這一部分可以參考我以前寫的部落格：

http://www.cnblogs.com/skyme/tag/lucene/

lucene是什麼

下圖是一個很好的說明：

1、lucene是構建索引、查詢、高亮、拼寫檢查的類庫。

2、它不是一個爬蟲。

3、不提供分散式的索引。

lucene全文搜尋處理流程

lucene的索引和查詢

這是用4.6版本構建的lucene構建索引和查詢的示例：

public static void main(String[] args) throws IOException, ParseException {
        // 一、建立索引
        // 記憶體索引模板
        Directory dir = new RAMDirectory();
        Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_46);

        IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_46,
                analyzer);
        IndexWriter indexWriter = new IndexWriter(dir, config);

        Document doc = new Document();
        String title = "標題";
        String content = "被索引的內容";
        Field f1 = new Field("title", title, TextField.TYPE_STORED);
        Field f2 = new Field("content", content, TextField.TYPE_STORED);
        doc.add(f1);
        doc.add(f2);

        indexWriter.addDocument(doc);
        indexWriter.close();

        // 二、搜尋
        DirectoryReader directoryReader = DirectoryReader.open(dir);
        IndexSearcher indexSearcher = new IndexSearcher(directoryReader);

        QueryParser parser = new QueryParser(Version.LUCENE_46, "content",
                analyzer);
        Query query = parser.parse("內容");

        TopDocs topDocs = indexSearcher.search(query, null, 100);
        ScoreDoc[] hits = topDocs.scoreDocs;

        System.out.println("查詢結果數：" + hits.length);

        for (int n = 0; n < hits.length; n++) {
            Document hitDoc = indexSearcher.doc(hits[n].doc);
            System.out.println("搜尋的結果title：" + hitDoc.get("title"));
        }
    }

上面是一個簡單的在記憶體中構建索引並且進行查詢的例子。

然後看一下lucene索引用到的類：

再看一下查詢用到的類：

理解索引過程

索引的過程可以簡述為：

lucene加權

這部分內容可以參考：

http://www.cnblogs.com/hongten/archive/2013/02/01/hongten_lucene_baidu.html

Directory子類

FSDirectory

FSDirectory是Lucene對檔案系統的操作，它有下面三個子類SimpleFSDirectory、MmapDirectory、NIOFSDirectory；

FSDirectory是一個抽象類，具體實現由子類來完成。

1、SimpleFSDirectory

最簡單的FSDirectory子類，使用java.io.*API將檔案存入檔案系統中，不能很好支援多執行緒操作。因為要做到這點就必須在內部加入鎖，而java.io.*並不支援按位置讀取。

2、NIOFSDirectory

使用java.io.*API所提供的位置讀取介面，能很好的支援除Windows之外的多執行緒操作，原因是Sun的JRE在Windows平臺上長期存在問題。

NIOFSDirectory在Windows作業系統的效能比較差，甚至可能比SimpleFSDirecory的效能還差。

3、MmapDirectory

使用記憶體對映的I/O介面進行讀操作，這樣不需要採取鎖機制，並能很好的支援多執行緒讀操作。但由於記憶體對映的I/O所消耗的地址空間是與索引尺寸相等，所以建議最好只是用64位JRE。

QueryParser

queryparser的解析過程：

1、使用queryparser完成解析搜尋請求

2、基本格式如：

QueryParser parser=new QueryParser("欄位名稱","分析器例項");

Query q=parser.parse("關鍵詞")

3、例如：解析一個關鍵字太陽

QueryParser parser=new QueryParser("context",new StandardAnalyzer());

Query q=parser.parse("太陽");

IndexSearcher searcher=new IndexSearcher(indexpath);

Hits hit=searcher.search(q);

4、解析多個關鍵字太陽、月亮

QueryParser parser=new QueryParser("context",new StandardAnalyzer());

Query q=parser.parse("太陽月亮");

IndexSearcher searcher=new IndexSearcher(indexpath);

Hits hit=searcher.search(q);

4、帶引數的多個關鍵字解析

QueryParser parser=new QueryParser("context",new StandardAnalyzer());

Query q=parser.parse("太陽月亮");

parser.setDefaultOperator(QueryParser.Opertator.AND);//同時含有多個關鍵字，如果是QueryParser.Opertator.OR表示或者

IndexSearcher searcher=new IndexSearcher(indexpath);

Hits hit=searcher.search(q);

IndexSearcher

下圖是搜尋用到的相關的類：

lucene的擴充套件工程

1、solr

Solr是一個高效能，採用Java5開發，基於Lucene的全文搜尋伺服器。文件通過Http利用XML加到一個搜尋集合中。查詢該集合也是通過 http收到一個XML/JSON響應來實現。它的主要特性包括：高效、靈活的快取功能，垂直搜尋功能，高亮顯示搜尋結果，通過索引複製來提高可用性，提供一套強大Data Schema來定義欄位，型別和設定文字分析，提供基於Web的管理介面等。

2、ElasticSearch

ElasticSearch是一個基於Lucene構建的開源，分散式，RESTful搜尋引擎。設計用於雲端計算中，能夠達到實時搜尋，穩定，可靠，快速，安裝使用方便。支援通過HTTP使用JSON進行資料索引。

3、IndexTank

IndexTank是一套基於Java的索引-實時全文搜尋引擎實現，它的設計分離了相關性標記和文件內容，因為相關性標記的生命週期和文件本身是不一樣的，特別是在使用者建立的內容的情況下，例如分享次數，Like按鈕，+1按鈕等等。

4、Katta

Katta是一個可擴充套件的、故障容錯的、分散式實施訪問的資料儲存。

Katta可用於大量、重複、索引的碎片，以滿足高負荷和巨大的資料集。這些索引可以是不同的型別。當前該實現在Lucene和Hadoop mapfiles。

5、bobo-browse

bobo-browse是一用java寫的lucene擴充套件元件，通過它可以很方便在lucene上實現分組統計功能。

比如說搜尋電腦，可以得到cpu是intel的有幾條命中記錄，cpu是amd的有幾條命中記錄。

6、Compass

Compass是一個強大的,事務的,高效能的物件/搜尋引擎對映(OSEM:object/search engine mapping)與一個Java持久層框架。Compass包括:

搜尋引擎抽象層(使用Lucene搜尋引薦),
OSEM（Object/Search Engine Mapping）支援,
事務管理,
類似於Google的簡單關鍵字查詢語言,
可擴充套件與模組化的框架,
簡單的API

7、Summa

Summa是一種由java開發的，快速模組化和可擴充套件的搜尋引擎。Summa有如下特點:

綜合搜尋Summa能夠同時訪問許多不同的資料和資料來源,並以一個統一的介面公開
模組化設計Summa搜尋系統由一系列獨立模組組成，這樣使得它更簡單容易地被維護和升級
可擴充套件性Summa支援分散式架構而且能夠按比例的擴大或縮小以處理任何數量的資料
開放標準Summa基於現代web技術與標準，不包含任何私有程式碼或原理
故障容錯如果某單一資料資源或服務出錯，Summa將會繼續執行而不受出錯部分限制

8、Constellio

Constellio是一個開源的搜尋解決方案，適合企業級的搜尋。基於Apache Solr專案構建，使用Lucene做為搜尋引擎，並提供基於Web的網頁和文件的檢索。可選擇文件型別、資料夾以及檔名進行檢索。

應用

下面給出一個我們實際過程中的使用模型，用於比對系統中的類目關係：

上圖中的匹配過濾功能使用lucene完成。

跟我一起雲端計算（4）——lucene

瞭解lucene的基本概念這一部分可以參考我以前寫的部落格： http://www.cnblogs.com/skyme/tag/lucene/

跟我一起雲端計算（1）——storm

概述最近要做一個實時分析的專案，所以需要深入一下storm。為什麼storm 綜合下來，有以下幾點：

golang 動態定義結構體_跟我一起學習go語言（五）golang中結構體的初始化方法

技術標籤：golang 動態定義結構體 1、自定義一個結構體 type Vertex struct { X, Y float64}

跟我一起學資料結構（C++語言版）：連結串列

跟我一起學資料結構（C++語言版）：連結串列文章目錄跟我一起學資料結構（C++語言版）：連結串列

跟我一起ggplot2（1）

ggplot2 R的作圖工具包，可以使用非常簡單的語句實現非常複雜漂亮的效果。 qplot

跟我一起hadoop（1）-hadoop2.6安裝與使用

偽分散式 hadoop的三種安裝方式： Local (Standalone) Mode Pseudo-Distributed Mode Fully-Distributed Mode

跟我一起資料探勘（20）——網站日誌挖掘

收集web日誌的目的 Web日誌挖掘是指採用資料探勘技術，對站點使用者訪問Web伺服器過程中產生的日誌資料進行分析處理，從而發現Web使用者的訪問模式和興趣愛好等，這些資訊對站點建設潛在有用的可理解的未知資訊和知識

跟我一起資料探勘（21）——redis

什麼是Redis Redis是一個開源的使用ANSI C語言編寫、支援網路、可基於記憶體亦可持久化的日誌型、Key-Value資料庫，並提供多種語言的API。從2010年3月15日起，Redis的開發工作由VMware主持。從2013年5月開始，Redis的

跟我一起資料探勘（22）——spark入門

Spark簡介 Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的並行，Spark，擁有Hadoop MapReduce所具有的優點；但不同於MapReduce的是Job中間輸出結果可以儲存在記憶體中，從而不再需要讀寫HDFS，因此S

從零開始一起學Blazor WebAssembly 開發（4）

登入模組基本完成了，登入主要用了以下幾個點： 1、後端採用的Abp Vnext 框架，這個框架自帶的IdentityServer4使用者角色許可權控制，這個框架登入研究了好一陣子，有幾個坑這裡說下：

存款利息的計算。有1000元，想存5年，可按以下5種辦法存（1）一次存5年期（2）先存2年期，到期後將本息再存3年期（3）先存3年期，到期後將本息再存2年期（4）存1年期，到期後將本息再存1年期，連續存5次（5）存活期存款，活期利息每一季度結算一次

存款利息的計算。有1000元，想存5年，可按以下5種辦法存：（1）一次存5年期

跟我一起雲端計算（4）——lucene

瞭解lucene的基本概念

lucene是什麼

lucene全文搜尋處理流程

lucene的索引和查詢

理解索引過程

lucene加權

Directory子類

QueryParser

IndexSearcher

lucene的擴充套件工程

應用

跟我一起雲端計算（4）——lucene

跟我一起雲端計算（1）——storm

golang 動態定義結構體_跟我一起學習go語言（五）golang中結構體的初始化方法

跟我一起學資料結構（C++語言版）：連結串列

跟我一起ggplot2（1）

跟我一起hadoop（1）-hadoop2.6安裝與使用

跟我一起資料探勘（20）——網站日誌挖掘

跟我一起資料探勘（21）——redis

跟我一起資料探勘（22）——spark入門

從零開始一起學Blazor WebAssembly 開發（4）

【前端】我的刷題記錄（4）

C語言程式設計練習（4）——計算圓的周長和麵積

Python學習（4）序列：索引、切片、序列相加、乘法（Multiplying）、檢查某個元素是否是序列的成員（元素）、計算序列的長度和最大最小值

《電馭叛客2077攻略》結局6：以我殘軀化烈火（4）

IBM Cloud Computing Practitioners 2019 （IBM雲端計算從業者2019）Exam答案

空氣質量計算公式（4）當日累計情況

iOS——runtime（4）：淺析物件的建立

2019年Java面試題基礎系列228道（4），快看看哪些你還不會？

分散式唯一ID生成系列（4）——Redis叢集實現的分散式ID適合做分散式ID嗎

跟我一起雲端計算（4）——lucene

瞭解lucene的基本概念

lucene是什麼

lucene全文搜尋處理流程

lucene的索引和查詢

理解索引過程

lucene加權

Directory子類

QueryParser

IndexSearcher

lucene的擴充套件工程

應用

相關推薦