Apache Lucene全域性搜尋引擎入門教程

阿新 • • 發佈：2019-01-14

Lucene簡介

Lucent：Apache軟體基金會Jakarta專案組的一個子專案，Lucene提供了一個簡單卻強大的應用程式介面，能夠做全文索引和搜尋。在Java開發環境裡Lucene是一個成熟的免費開源工具。就其本身而言，Lucene是當前以及最近幾年最受歡迎的免費Java資訊檢索程式庫。 —— [ 百度百科 ]

資料庫索引和Lucene檢索對比

比較項	Lucene檢索	資料庫檢索
資料檢索	從Lucene的索引檔案中檢出	由資料庫索引檢索記錄
索引結構	Document（文件）	Record（記錄）
全文檢索	支援	不支援
模糊查詢	支援	不支援
結果排序	支援排序	不能排序

Lucene搜尋的API類主要有4個 IndexSearch，Query，QueryParser，Hits

Lucene搜尋過程

Lucene的索引結構是文件(Document)形式的，下面簡單介紹一下Lucene搜尋的過程
（1）將文件傳給分片語件(Tokenizer)，分片語件根據標點符號和停詞將文件分成詞元(Token)，並將標點符號和停詞去掉。

停詞是指沒有特別意思的詞。英語的是指比如a、the等等單詞

文章1內容：Tom favorite fruit is apple.

經過分詞處理後，變成[Tom][facorite][fruit][apple]

（2）再將詞元傳給語言處理元件(Linguistic Processor)

英語的單詞經過語言處理元件處理後，字母變為小寫，詞元會變成最基本的詞根形式，比如likes變成like

經過分詞處理後，變成[tom][favorite][fruit][apple]

（3）然後得到的詞元傳給索引元件(Indexer)，索引元件處理得到索引結構，得到關鍵字、出現頻率、出現位置分別作為詞典檔案（Term Dictionary）、頻率檔案（frequencies）和位置檔案（positions）儲存起來，然後通過二元搜尋演算法快速查詢關鍵字

關鍵字	文章號[出現頻率]	出現位置
tom	1[1]	1
favorite	1[2]	2
fruit	1[3]	3

[apple| 1[4] | 4 |

Lucene簡單例項

建立一個Maven專案，在pom.xml加入Lucene所需的jar

<dependencies>
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-core</artifactId>
            <version>5.3.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-analyzers-common</artifactId>
            <version>5.3.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-queryparser</artifactId>
            <version>5.3.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-analyzers-smartcn</artifactId>
            <version>5.3.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-highlighter</artifactId>
            <version>5.3.1</version>
        </dependency>
    </dependencies>

建立索引的簡單例項

package com.demo.lucene;


import java.io.IOException;
import java.nio.file.Paths;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.IntField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Component;


/**
 * <pre>
 *  Lucene建立索引服務類
 * </pre>
 *
 * @author nicky
 * @version 1.00.00
 *
 *          <pre>
 * 修改記錄
 *    修改後版本:     修改人：  修改日期:2018年04月18日     修改內容:
 *          </pre>
 */
@Component
public class LuceneIndexer {

    private volatile static LuceneIndexer instance;

    private final static String INDEX_DIR = "D:\\lucene";

    private static class SingletonHolder{
        private final static LuceneIndexer instance=new LuceneIndexer();
    }

    public static LuceneIndexer getInstance(){
        return SingletonHolder.instance;
    }

    public boolean createIndex(String indexDir) throws IOException{
        //加點測試的靜態資料
        Integer ids[] = {1 , 2 , 3};
        String titles[] = {"標題1" , "標題2" , "標題3"};
        String tcontents[] = {
                "內容1內容啊哈哈哈",
                "內容2內容啊哈哈哈",
                "內容3內容啊哈哈哈"
        };

        long startTime = System.currentTimeMillis();//記錄索引開始時間

        Analyzer analyzer = new SmartChineseAnalyzer();
        Directory directory = FSDirectory.open(Paths.get(indexDir));
        IndexWriterConfig config = new IndexWriterConfig(analyzer);

        IndexWriter indexWriter = new IndexWriter(directory, config);

        for(int i = 0; i < ids.length;i++){
            Document doc = new Document();
            //新增欄位
            doc.add(new IntField("id", ids[i],Field.Store.YES)); //新增內容
            doc.add(new TextField("title", titles[i], Field.Store.YES)); //新增檔名，並把這個欄位存到索引檔案裡
            doc.add(new TextField("tcontent", tcontents[i], Field.Store.YES)); //新增檔案路徑
            indexWriter.addDocument(doc);
        }

        indexWriter.commit();
        System.out.println("共索引了"+indexWriter.numDocs()+"個檔案");
        indexWriter.close();
        System.out.println("建立索引所用時間："+(System.currentTimeMillis()-startTime)+"毫秒");

        return true;
    }

    public static void main(String[] args) {
        try {
            boolean r = LuceneIndexer.getInstance().createIndex(INDEX_DIR);
            if(r){
                System.out.println("索引建立成功!");
            }else{
                System.out.println("索引建立失敗!");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }

    }

}

全域性搜尋索引

package com.demo.lucene;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.*;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

import java.io.IOException;
import java.io.StringReader;
import java.nio.file.Paths;


/**
 * <pre>
 *  Lucene全域性搜尋服務類
 * </pre>
 *
 * @author nicky
 * @version 1.00.00
 *
 *          <pre>
 * 修改記錄
 *    修改後版本:     修改人：  修改日期:2018年04月18日     修改內容:
 *          </pre>
 */
public class SearchBuilder {

    public static void doSearch(String indexDir , String queryStr) throws IOException, ParseException, InvalidTokenOffsetsException {
        Directory directory = FSDirectory.open(Paths.get(indexDir));
        DirectoryReader reader = DirectoryReader.open(directory);
        IndexSearcher searcher = new IndexSearcher(reader);
        Analyzer analyzer = new SmartChineseAnalyzer();
        QueryParser parser = new QueryParser("tcontent",analyzer);
        Query query = parser.parse(queryStr);

        long startTime = System.currentTimeMillis();
        TopDocs docs = searcher.search(query,10);

        System.out.println("查詢"+queryStr+"所用時間："+(System.currentTimeMillis()-startTime));
        System.out.println("查詢到"+docs.totalHits+"條記錄");


        //遍歷查詢結果
        for(ScoreDoc scoreDoc : docs.scoreDocs){
            Document doc = searcher.doc(scoreDoc.doc);
            String tcontent = doc.get("tcontent");
            if(tcontent != null){
                TokenStream tokenStream =  analyzer.tokenStream("tcontent", new StringReader(tcontent));
                String summary = highlighter.getBestFragment(tokenStream, tcontent);
                System.out.println(summary);
            }
        }
        reader.close();
    }

    public static void main(String[] args){
        String indexDir = "D:\\lucene";
        String q = "內容"; //查詢這個字串
        try {
            doSearch(indexDir, q);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

加入高亮顯示：

public class SearchBuilder {

    public static void doSearch(String indexDir , String queryStr) throws IOException, ParseException, InvalidTokenOffsetsException {
        Directory directory = FSDirectory.open(Paths.get(indexDir));
        DirectoryReader reader = DirectoryReader.open(directory);
        IndexSearcher searcher = new IndexSearcher(reader);
        Analyzer analyzer = new SmartChineseAnalyzer();
        QueryParser parser = new QueryParser("tcontent",analyzer);
        Query query = parser.parse(queryStr);

        long startTime = System.currentTimeMillis();
        TopDocs docs = searcher.search(query,10);

        System.out.println("查詢"+queryStr+"所用時間："+(System.currentTimeMillis()-startTime));
        System.out.println("查詢到"+docs.totalHits+"條記錄");

        //加入高亮顯示的
        SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<b><font color=red>","</font></b>");
        QueryScorer scorer = new QueryScorer(query);//計算查詢結果最高的得分
        Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);//根據得分算出一個片段
        Highlighter highlighter = new Highlighter(simpleHTMLFormatter,scorer);
        highlighter.setTextFragmenter(fragmenter);//設定顯示高亮的片段

        //遍歷查詢結果
        for(ScoreDoc scoreDoc : docs.scoreDocs){
            Document doc = searcher.doc(scoreDoc.doc);
            String tcontent = doc.get("tcontent");
            if(tcontent != null){
                TokenStream tokenStream =  analyzer.tokenStream("tcontent", new StringReader(tcontent));
                String summary = highlighter.getBestFragment(tokenStream, tcontent);
                System.out.println(summary);
            }
        }
        reader.close();
    }

    public static void main(String[] args){
        String indexDir = "D:\\lucene";
        String q = "內容"; //查詢這個字串
        try {
            doSearch(indexDir, q);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

查詢內容1所用時間：404
查詢到3條記錄
內容1內容啊哈哈哈
內容2內容啊哈哈哈
內容3內容啊哈哈哈

Lucene重要類解釋

IndexWriter:lucene 中最重要的的類之一，它主要是用來將文件加入索引，同時控制索引過程中的一些引數使用。

Analyzer:分析器,主要用於分析搜尋引擎遇到的各種文字。常用的有
StandardAnalyzer
分析器,StopAnalyzer 分析器,WhitespaceAnalyzer 分析器等。

Directory:索引存放的位置;lucene 提供了兩種索引存放的位置，一種是磁碟，一種是記憶體。一般情況將索引放在磁碟上；相應地lucene 提供了FSDirectory 和RAMDirectory 兩個類。

Document:文件;Document 相當於一個要進行索引的單元，任何可以想要被索引的檔案都
必須轉化為Document 物件才能進行索引。

Field：欄位。

IndexSearcher:是lucene 中最基本的檢索工具，所有的檢索都會用到IndexSearcher工具;

Query:查詢，lucene 中支援模糊查詢，語義查詢，短語查詢，組合查詢等等,如有
TermQuery,BooleanQuery,RangeQuery,WildcardQuery 等一些類。

QueryParser:是一個解析使用者輸入的工具，可以通過掃描使用者輸入的字串，生成Query物件。

Hits:在搜尋完成之後，需要把搜尋結果返回並顯示給使用者，只有這樣才算是完成搜尋的目的。在lucene 中，搜尋的結果的集合是用Hits 類的例項來表示的。

Apache Lucene全域性搜尋引擎入門教程

Lucene簡介

Lucene搜尋過程

Lucene簡單例項

Lucene重要類解釋

附錄

Apache Lucene全域性搜尋引擎入門教程

Apache Hadoop 入門教程第四章

Apache Hadoop 入門教程第二章

Apache Hadoop 入門教程第一章

Apache Hadoop 入門教程第三章

Apache Flume 入門教程

Apache Kafka核心元件和流程-協調器（消費者和組協調器）-設計-原理（入門教程輕鬆學）

Apache Shiro 快速入門教程

全文搜尋引擎 Elasticsearch 入門教程-Index

Apache Kafka入門教程輕鬆學-第四章 Kafka核心元件和流程-設計-原理（二）協調器（消費者和組協調器）

Apache Solr7.4 入門教程(一)

Apache Kafka入門教程輕鬆學- Kafka核心概念

Apache Kafka入門教程輕鬆學-第四章 Kafka核心元件和流程-設計-原理（一）控制器

Apache Solr7.4 入門教程(二)

Apache Kafka入門教程輕鬆學-第四章 Kafka核心元件和流程-設計-原理（四）副本管理器

Apache Storm 入門教程

Apache Lucene 7.6.0 釋出，Java 全文搜尋引擎

Apache Kafka 核心元件和流程-日誌管理器-設計-原理（入門教程輕鬆學）

Lucene 6.2.1入門教程（一）建立索引和基本搜尋索引

Apache Kafka 核心元件和流程-控制器-設計-原理（入門教程輕鬆學）

Apache Lucene全域性搜尋引擎入門教程

Lucene簡介

Lucene搜尋過程

Lucene簡單例項

Lucene重要類解釋

附錄

相關推薦