全文檢索技術

阿新 • • 發佈：2020-07-23

Lucene

1課程計劃

1、什麼是全文檢索，如何實現全文檢索

2、Lucene實現全文檢索的流程

a)建立索引

b)查詢索引

3、配置開發環境

4、入門程式

5、分析器的分析過程

a)測試分析器的分詞效果

b)第三方中文分析器

6、索引庫維護

a)新增文件

b)刪除文件

c)修改文件

7、索引庫查詢

a)使用Query子類查詢

b)使用QueryParser查詢

2什麼是全文檢索

2.1資料分類

我們生活中的資料總體分為兩種：結構化資料和非結構化資料。

結構化資料：指具有固定格式或有限長度的資料，如資料庫，元資料等。

非結構化資料：指不定長或無固定格式的資料，如郵件，word文件等磁碟上的檔案

2.2結構化資料搜尋

常見的結構化資料也就是資料庫中的資料。在資料庫中搜索很容易實現，通常都是使用sql語句進行查詢，而且能很快的得到查詢結果。

為什麼資料庫搜尋很容易？

因為資料庫中的資料儲存是有規律的，有行有列而且資料格式、資料長度都是固定的。

2.3非結構化資料查詢方法

（1）順序掃描法(Serial Scanning)

所謂順序掃描，比如要找內容包含某一個字串的檔案，就是一個文件一個文件的看，對於每一個文件，從頭看到尾，如果此文件包含此字串，則此文件為我們要找的檔案，接著看下一個檔案，直到掃描完所有的檔案。如利用windows的搜尋也可以搜尋檔案內容，只是相當的慢。

（2）全文檢索(Full-text Search)

將非結構化資料中的一部分資訊提取出來，重新組織，使其變得有一定結構，然後對此有一定結構的資料進行搜尋，從而達到搜尋相對較快的目的。這部分從非結構化資料中提取出的然後重新組織的資訊，我們稱之索引。

例如：字典。字典的拼音表和部首檢字表就相當於字典的索引，對每一個字的解釋是非結構化的，如果字典沒有音節表和部首檢字表，在茫茫辭海中找一個字只能順序掃描。然而字的某些資訊可以提取出來進行結構化處理，比如讀音，就比較結構化，分聲母和韻母，分別只有幾種可以一一列舉，於是將讀音拿出來按一定的順序排列，每一項讀音都指向此字的詳細解釋的頁數。我們搜尋時按結構化的拼音搜到讀音，然後按其指向的頁數，便可找到我們的非結構化資料——也即對字的解釋。

這種先建立索引，再對索引進行搜尋的過程就叫全文檢索(Full-text Search)。

雖然建立索引的過程也是非常耗時的，但是索引一旦建立就可以多次使用，全文檢索主要處理的是查詢，所以耗時間建立索引是值得的。

2.4如何實現全文檢索

可以使用Lucene實現全文檢索。Lucene是apache下的一個開放原始碼的全文檢索引擎工具包。提供了完整的查詢引擎和索引引擎，部分文字分析引擎。Lucene的目的是為軟體開發人員提供一個簡單易用的工具包，以方便的在目標系統中實現全文檢索的功能。

2.5全文檢索的應用場景

對於資料量大、資料結構不固定的資料可採用全文檢索方式搜尋，比如百度、Google等搜尋引擎、論壇站內搜尋、電商網站站內搜尋等。

3Lucene實現全文檢索的流程

3.1索引和搜尋流程圖

1、綠色表示索引過程，對要搜尋的原始內容進行索引構建一個索引庫，索引過程包括：

確定原始內容即要搜尋的內容à採集文件à建立文件à分析文件à索引文件

2、紅色表示搜尋過程，從索引庫中搜索內容，搜尋過程包括：

使用者通過搜尋介面à建立查詢à執行搜尋，從索引庫搜尋à渲染搜尋結果

3.2建立索引

對文件索引的過程，將使用者要搜尋的文件內容進行索引，索引儲存在索引庫（index）中。

這裡我們要搜尋的文件是磁碟上的文字檔案，根據案例描述：凡是檔名或檔案內容包括關鍵字的檔案都要找出來，這裡要對檔名和檔案內容建立索引。

3.2.1獲得原始文件

原始文件是指要索引和搜尋的內容。原始內容包括網際網路上的網頁、資料庫中的資料、磁碟上的檔案等。

本案例中的原始內容就是磁碟上的檔案，如下圖：

從網際網路上、資料庫、檔案系統中等獲取需要搜尋的原始資訊，這個過程就是資訊採集，資訊採集的目的是為了對原始內容進行索引。

在Internet上採集資訊的軟體通常稱為爬蟲或蜘蛛，也稱為網路機器人，爬蟲訪問網際網路上的每一個網頁，將獲取到的網頁內容儲存起來。

本案例我們要獲取磁碟上檔案的內容，可以通過檔案流來讀取文字檔案的內容，對於pdf、doc、xls等檔案可通過第三方提供的解析工具讀取檔案內容，比如Apache POI讀取doc和xls的檔案內容。

3.2.2建立文件物件

獲取原始內容的目的是為了索引，在索引前需要將原始內容建立成文件（Document），文件中包括一個一個的域（Field），域中儲存內容。

這裡我們可以將磁碟上的一個檔案當成一個document，Document中包括一些Field（file_name檔名稱、file_path檔案路徑、file_size檔案大小、file_content檔案內容），如下圖：

注意：每個Document可以有多個Field，不同的Document可以有不同的Field，同一個Document可以有相同的Field（域名和域值都相同）

每個文件都有一個唯一的編號，就是文件id。

3.2.3分析文件

將原始內容建立為包含域（Field）的文件（document），需要再對域中的內容進行分析，分析的過程是經過對原始文件提取單詞、將字母轉為小寫、去除標點符號、去除停用詞等過程生成最終的語彙單元，可以將語彙單元理解為一個一個的單詞。

比如下邊的文件經過分析如下：

原文件內容：

Lucene is a Java full-text search engine. Lucene is not a complete

application, but rather a code library and API that can easily be used

to add search capabilities to applications.

分析後得到的語彙單元：

lucene、java、full、search、engine。。。。

每個單詞叫做一個Term，不同的域中拆分出來的相同的單詞是不同的term。term中包含兩部分一部分是文件的域名，另一部分是單詞的內容。

例如：檔名中包含apache和檔案內容中包含的apache是不同的term。

3.2.4建立索引

對所有文件分析得出的語彙單元進行索引，索引的目的是為了搜尋，最終要實現只搜尋被索引的語彙單元從而找到Document（文件）。

注意：建立索引是對語彙單元索引，通過詞語找文件，這種索引的結構叫倒排索引結構。

傳統方法是根據檔案找到該檔案的內容，在檔案內容中匹配搜尋關鍵字，這種方法是順序掃描方法，資料量大、搜尋慢。

倒排索引結構是根據內容（詞語）找文件，如下圖：

倒排索引結構也叫反向索引結構，包括索引和文件兩部分，索引即詞彙表，它的規模較小，而文件集合較大。

3.3查詢索引

查詢索引也是搜尋的過程。搜尋就是使用者輸入關鍵字，從索引（index）中進行搜尋的過程。根據關鍵字搜尋索引，根據索引找到對應的文件，從而找到要搜尋的內容（這裡指磁碟上的檔案）。

3.3.1使用者查詢介面

全文檢索系統提供使用者搜尋的介面供使用者提交搜尋的關鍵字，搜尋完成展示搜尋結果。

比如：

Lucene不提供製作使用者搜尋介面的功能，需要根據自己的需求開發搜尋介面。

3.3.2建立查詢

使用者輸入查詢關鍵字執行搜尋之前需要先構建一個查詢物件，查詢物件中可以指定查詢要搜尋的Field文件域、查詢關鍵字等，查詢物件會生成具體的查詢語法，

例如：語法“fileName:lucene”表示要搜尋Field域的內容為“lucene”的文件

3.3.3執行查詢

搜尋索引過程：

根據查詢語法在倒排索引詞典表中分別找出對應搜尋詞的索引，從而找到索引所連結的文件連結串列。

比如搜尋語法為“fileName:lucene”表示搜尋出fileName域中包含Lucene的文件。

搜尋過程就是在索引上查詢域為fileName，並且關鍵字為Lucene的term，並根據term找到文件id列表。

3.3.4渲染結果

以一個友好的介面將查詢結果展示給使用者，使用者根據搜尋結果找自己想要的資訊，為了幫助使用者很快找到自己的結果，提供了很多展示的效果，比如搜尋結果中將關鍵字高亮顯示，百度提供的快照等。

4配置開發環境

4.1Lucene下載

Lucene是開發全文檢索功能的工具包，從官方網站下載lucene-7.4.0，並解壓。

官方網站：http://lucene.apache.org/

版本：lucene-7.4.0

Jdk要求：1.8以上

4.2使用的jar包

lucene-core-7.4.0.jar

lucene-analyzers-common-7.4.0.jar

5入門程式

5.1需求

實現一個檔案的搜尋功能，通過關鍵字搜尋檔案，凡是檔名或檔案內容包括關鍵字的檔案都需要找出來。還可以根據中文詞語進行查詢，並且需要支援多個條件查詢。

本案例中的原始內容就是磁碟上的檔案，如下圖：

5.2建立索引

5.2.1實現步驟

第一步：建立一個java工程，並匯入jar包。

第二步：建立一個indexwriter物件。

1）指定索引庫的存放位置Directory物件

2）指定一個IndexWriterConfig物件。

第二步：建立document物件。

第三步：建立field物件，將field新增到document物件中。

第四步：使用indexwriter物件將document物件寫入索引庫，此過程進行索引建立。並將索引和document物件寫入索引庫。

第五步：關閉IndexWriter物件。

5.2.2程式碼實現

//建立索引
@Test
public void createIndex() throws Exception { 
  //指定索引庫存放的路徑 
  //D:\temp\index   
  Directory directory = FSDirectory.open(new File("D:\\temp\\index").toPath());   
  //索引庫還可以存放到記憶體中   
  //Directory directory = new RAMDirectory();    
  //建立indexwriterCofig物件   
  IndexWriterConfig config = new IndexWriterConfig();    
  //建立indexwriter物件    
  IndexWriter indexWriter = new IndexWriter(directory, config);   
  //原始文件的路徑    
  File dir = new File("D:\\temp\\searchsource");   
  for (File f : dir.listFiles()) {       
    //檔名        
    String fileName = f.getName();       
    //檔案內容      
    String fileContent = FileUtils.readFileToString(f);     
    //檔案路徑       
    String filePath = f.getPath();       
    //檔案的大小     
    long fileSize  = FileUtils.sizeOf(f);   
    //建立檔名域       
    //第一個引數：域的名稱    
    //第二個引數：域的內容     
    //第三個引數：是否儲存      
    Field fileNameField = new TextField("filename", fileName, Field.Store.YES);  
    //檔案內容域      
    Field fileContentField = new TextField("content", fileContent, Field.Store.YES);     
    //檔案路徑域（不分析、不索引、只儲存）    
    Field filePathField = new TextField("path", filePath, Field.Store.YES);     
    //檔案大小域       
    Field fileSizeField = new TextField("size", fileSize + "", Field.Store.YES); 
    //建立document物件     
    Document document = new Document();     
    document.add(fileNameField);       
    document.add(fileContentField);    
    document.add(filePathField);      
    document.add(fileSizeField);       
    //建立索引，並寫入索引庫       
    indexWriter.addDocument(document); 
  }    
  //關閉indexwriter    
  indexWriter.close();
}

5.2.3使用Luke工具檢視索引檔案

我們使用的luke的版本是luke-7.4.0，跟lucene的版本對應的。可以開啟7.4.0版本的lucene建立的索引庫。需要注意的是此版本的Luke是jdk9編譯的，所以要想執行此工具還需要jdk9才可以。

5.3查詢索引

5.3.1實現步驟

第一步：建立一個Directory物件，也就是索引庫存放的位置。

第二步：建立一個indexReader物件，需要指定Directory物件。

第三步：建立一個indexsearcher物件，需要指定IndexReader物件

第四步：建立一個TermQuery物件，指定查詢的域和查詢的關鍵詞。

第五步：執行查詢。

第六步：返回查詢結果。遍歷查詢結果並輸出。

第七步：關閉IndexReader物件

5.3.2程式碼實現

//查詢索引庫
@Test
public void searchIndex() throws Exception {    
//指定索引庫存放的路徑    
//D:\temp\index    
Directory directory = FSDirectory.open(new File("D:\\temp\\index").toPath());   
 //建立indexReader物件    
IndexReader indexReader = DirectoryReader.open(directory);    
//建立indexsearcher物件    
IndexSearcher indexSearcher = new IndexSearcher(indexReader);   
 //建立查詢    
Query query = new TermQuery(new Term("filename", "apache"));   
 //執行查詢   
 //第一個引數是查詢物件，第二個引數是查詢結果返回的最大值
    TopDocs topDocs = indexSearcher.search(query, 10);   
 //查詢結果的總條數    
System.out.println("查詢結果的總條數："+ topDocs.totalHits);    
//遍歷查詢結果    
//topDocs.scoreDocs儲存了document物件的id   
 for (ScoreDoc scoreDoc : topDocs.scoreDocs) {       
 //scoreDoc.doc屬性就是document物件的id        
//根據document的id找到document物件        
Document document = indexSearcher.doc(scoreDoc.doc);      
  System.out.println(document.get("filename"));       
 //System.out.println(document.get("content"));       
 System.out.println(document.get("path"));        
System.out.println(document.get("size"));       
 System.out.println("-------------------------");   
 }    
//關閉indexreader物件   
 indexReader.close();
}

6分析器

6.1分析器的分詞效果

//檢視標準分析器的分詞效果
@Test
public void testTokenStream() throws Exception {    
//建立一個標準分析器物件  
  Analyzer analyzer = new StandardAnalyzer();   
 //獲得tokenStream物件   
 //第一個引數：域名，可以隨便給一個    
//第二個引數：要分析的文字內容 
   TokenStream tokenStream = analyzer.tokenStream("test", "The Spring Framework provides a comprehensive programming and configuration model.");    
//新增一個引用，可以獲得每個關鍵詞   
 CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);    
//新增一個偏移量的引用，記錄了關鍵詞的開始位置以及結束位置   
 OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);  
  //將指標調整到列表的頭部  
  tokenStream.reset();    
//遍歷關鍵詞列表，通過incrementToken方法判斷列表是否結束    while(tokenStream.incrementToken()) {        
//關鍵詞的起始位置        
System.out.println("start->" + offsetAttribute.startOffset());        //取關鍵詞       
 System.out.println(charTermAttribute);      
  //結束位置       
 System.out.println("end->" + offsetAttribute.endOffset());  
  }    
tokenStream.close();
}

6.2中文分析器

6.2.1Lucene自帶中文分詞器

lStandardAnalyzer：

單字分詞：就是按照中文一個字一個字地進行分詞。如：“我愛中國”，效果：“我”、“愛”、“中”、“國”。

lSmartChineseAnalyzer

對中文支援較好，但擴充套件性差，擴充套件詞庫，禁用詞庫和同義詞庫等不好處理

6.2.2IKAnalyzer

使用方法：

第一步：把jar包新增到工程中

第二步：把配置檔案和擴充套件詞典和停用詞詞典新增到classpath下

注意：hotword.dic和ext_stopword.dic檔案的格式為UTF-8，注意是無BOM的UTF-8編碼。

也就是說禁止使用windows記事本編輯擴充套件詞典檔案

使用EditPlus.exe儲存為無BOM的UTF-8編碼格式，如下圖：

6.3使用自定義分析器

@Test
public void addDocument() throws Exception {   
 //索引庫存放路徑    
Directory directory = FSDirectory.open(new File("D:\\temp\\index").toPath());    
IndexWriterConfig config = new IndexWriterConfig(new IKAnalyzer());    
//建立一個indexwriter物件   
 IndexWriter indexWriter = new IndexWriter(directory, config);

//...

}

7索引庫的維護

7.1索引庫的新增

7.1.1Field域的屬性

是否分析：是否對域的內容進行分詞處理。前提是我們要對域的內容進行查詢。

是否索引：將Field分析後的詞或整個Field值進行索引，只有索引方可搜尋到。

比如：商品名稱、商品簡介分析後進行索引，訂單號、身份證號不用分析但也要索引，這些將來都要作為查詢條件。

是否儲存：將Field值儲存在文件中，儲存在文件中的Field才可以從Document中獲取

比如：商品名稱、訂單號，凡是將來要從Document中獲取的Field都要儲存。

是否儲存的標準：是否要將內容展示給使用者

7.1.2新增文件程式碼實現

//新增索引
@Test
public void addDocument() throws Exception {    
  //索引庫存放路徑        
  Directory directory = FSDirectory.open(new File("D:\\temp\\index").toPath());      
  IndexWriterConfig config = new IndexWriterConfig(new IKAnalyzer());     
  //建立一個indexwriter物件       
  IndexWriter indexWriter = new IndexWriter(directory, config);         
  //建立一個Document物件      
  Document document = new Document();     
  //向document物件中新增域。    
  //不同的document可以有不同的域，同一個document可以有相同的域。         
  document.add(new TextField("filename", "新新增的文件", Field.Store.YES));   
  document.add(new TextField("content", "新新增的文件的內容", Field.Store.NO));       
  //LongPoint建立索引   
  document.add(new LongPoint("size", 1000l));         
   //StoreField儲存資料      
  document.add(new StoredField("size", 1000l));       
  //不需要建立索引的就使用StoreField儲存       
  document.add(new StoredField("path", "d:/temp/1.txt"));        
  //新增文件到索引庫     
  indexWriter.addDocument(document);       
  //關閉indexwriter      
  indexWriter.close();
}

7.2索引庫刪除

7.2.1刪除全部

//刪除全部索引
@Test
public void deleteAllIndex() throws Exception {
IndexWriter indexWriter = getIndexWriter();
//刪除全部索引
indexWriter.deleteAll();
//關閉indexwriter
indexWriter.close();
}

說明：將索引目錄的索引資訊全部刪除，直接徹底刪除，無法恢復。

此方法慎用！！

7.2.2指定查詢條件刪除

7.3索引庫的修改

//根據查詢條件刪除索引
@Test
public void deleteIndexByQuery() throws Exception {
IndexWriter indexWriter = getIndexWriter();
//建立一個查詢條件
Query query = new TermQuery(new Term("filename", "apache"));
//根據查詢條件刪除
indexWriter.deleteDocuments(query);
//關閉indexwriter
indexWriter.close();
}

原理就是先刪除後新增。

//修改索引庫
@Test
public void updateIndex() throws Exception {       
 IndexWriter indexWriter = getIndexWriter();       
 //建立一個Document物件       
 Document document = new Document();     
 //向document物件中新增域。       
 //不同的document可以有不同的域，同一個document可以有相同的域。        document.add(new TextField("filename", "要更新的文件", Field.Store.YES));        
  document.add(new TextField("content", " Lucene 簡介 Lucene 是一個基於 Java 的全文信    +"息檢索工具包," +"它不是一個完整的搜尋應用程式,而是為你的應用程式提供索引和搜尋功能。",                    Field.Store.YES));    
  indexWriter.updateDocument(new Term("content", "java"), document);     
    //關閉indexWriter     
  indexWriter.close();
}

8Lucene索引庫查詢

對要搜尋的資訊建立Query查詢物件，Lucene會根據Query查詢物件生成最終的查詢語法，類似關係資料庫Sql語法一樣Lucene也有自己的查詢語法，比如：“name:lucene”表示查詢Field的name為“lucene”的文件資訊。

可通過兩種方法建立查詢物件：

1）使用Lucene提供Query子類

2）使用QueryParse解析查詢表示式

8.1TermQuery

TermQuery，通過項查詢，TermQuery不使用分析器所以建議匹配不分詞的Field域查詢，比如訂單號、分類ID號等。

指定要查詢的域和要查詢的關鍵詞。

//使用Termquery查詢
@Test
public void testTermQuery() throws Exception {      
    Directory directory = FSDirectory.open(new File("D:\\temp\\index").toPath());      
    IndexReader indexReader = DirectoryReader.open(directory);        
    IndexSearcher indexSearcher = new IndexSearcher(indexReader);           
   //建立查詢物件       
   Query query = new TermQuery(new Term("content", "lucene"));        //執行查詢     
   TopDocs topDocs = indexSearcher.search(query, 10);     
   //共查詢到的document個數    
    System.out.println("查詢結果總數量：" + topDocs.totalHits);        //遍歷查詢結果   
     for (ScoreDoc scoreDoc : topDocs.scoreDocs) {                 
        Document document = indexSearcher.doc(scoreDoc.doc);                  
        System.out.println(document.get("filename"));                  
        //System.out.println(document.get("content"));                  
        System.out.println(document.get("path"));                  
        System.out.println(document.get("size"));         
 }        
 //關閉indexreader        
 indexSearcher.getIndexReader().close(); 
    }

8.2數值範圍查詢

@Test
public void testRangeQuery() throws Exception {   
   IndexSearcher indexSearcher = getIndexSearcher();   
   Query query = LongPoint.newRangeQuery("size", 0l, 10000l);    
   printResult(query, indexSearcher); 
}

8.3使用queryparser查詢

通過QueryParser也可以建立Query，QueryParser提供一個Parse方法，此方法可以直接根據查詢語法來查詢。Query物件執行的查詢語法可通過System.out.println(query);查詢。

需要使用到分析器。建議建立索引時使用的分析器和查詢索引時使用的分析器要一致。

需要加入queryParser依賴的jar包。

@Test
public void testQueryParser() throws Exception {       IndexSearcher indexSearcher = getIndexSearcher();          
//建立queryparser物件      
 //第一個引數預設搜尋的域         
//第二個引數就是分析器物件         
QueryParser queryParser = new QueryParser("content", new IKAnalyzer());       
  Query query = queryParser.parse("Lucene是java開發的");       
  //執行查詢       
  printResult(query, indexSearcher);    
 } 
private void printResult(Query query, IndexSearcher indexSearcher) throws Exception {    
 //執行查詢         
TopDocs topDocs = indexSearcher.search(query, 10);  
  //共查詢到的document個數         
System.out.println("查詢結果總數量：" + topDocs.totalHits);         //遍歷查詢結果      
   for (ScoreDoc scoreDoc : topDocs.scoreDocs) {                  
      Document document = indexSearcher.doc(scoreDoc.doc);                   
      System.out.println(document.get("filename"));                   
    //System.out.println(document.get("content"));                   
      System.out.println(document.get("path"));                   
     System.out.println(document.get("size"));       
    }       
  //關閉indexreader        
 indexSearcher.getIndexReader().close(); 
 }

心有玲曦遇奇緣歡迎大家掃碼關注