Lucene筆記35-Lucene的擴充套件-高亮索引檔案

阿新 • • 發佈：2018-11-29

一、對索引檔案新增高亮

現在我們有一些索引檔案，怎麼對這些索引檔案新增高亮呢？首先需要根據搜尋域和值找到這篇文件，然後通過文件獲取域值，再將域值交給highlighter進行加工並返回，這個時候，返回的值就是新增過高亮的了。

二、程式碼展示

package com.wsy;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.*;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.wltea.analyzer.lucene.IKAnalyzer;

import java.io.File;
import java.io.IOException;

public class HighLightTest {
    public void search(String name) {
        Analyzer analyzer = new IKAnalyzer();
        try {
            Directory directory = FSDirectory.open(new File("E:\\Lucene\\IndexLibrary"));
            IndexSearcher indexSearcher = new IndexSearcher(IndexReader.open(directory));
            // 這裡只能接受fileName這一個域，所以下面highLight2()之後，content是null
            // QueryParser queryParser = new QueryParser(Version.LUCENE_35, "fileName", analyzer);
            // 使用MultiFieldQueryParser可以接受多個域，表示既查詢fileName，又查詢content，這時候，經過highLight2()之後，content就有值了
            MultiFieldQueryParser queryParser = new MultiFieldQueryParser(Version.LUCENE_35, new String[]{"fileName", "content"}, analyzer);
            Query query = queryParser.parse(name);
            TopDocs topDocs = indexSearcher.search(query, 10);
            for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
                Document document = indexSearcher.doc(scoreDoc.doc);
                String fileName = document.get("fileName");
                fileName = highLight2(analyzer, query, fileName, "fileName");
                System.out.println(fileName);
                String content = new Tika().parseToString(new File(document.get("path")));
                content = highLight2(analyzer, query, content, "content");
                System.out.println(content);
            }
            indexSearcher.close();
        } catch (IOException e) {
            e.printStackTrace();
        } catch (ParseException e) {
            e.printStackTrace();
        } catch (InvalidTokenOffsetsException e) {
            e.printStackTrace();
        } catch (TikaException e) {
            e.printStackTrace();
        }
    }

    public String highLight2(Analyzer analyzer, Query query, String text, String field) throws IOException, InvalidTokenOffsetsException {
        QueryScorer queryScorer = new QueryScorer(query);
        Fragmenter fragmenter = new SimpleSpanFragmenter(queryScorer);
        Formatter formatter = new SimpleHTMLFormatter("<span>", "</span>");
        Highlighter highlighter = new Highlighter(formatter, queryScorer);
        highlighter.setTextFragmenter(fragmenter);
        String highlightString = highlighter.getBestFragment(analyzer, field, text);
        // 如果查詢的highlightString為null，表示在field中沒有查到，就返回原來的內容
        return highlightString == null ? text : highlightString;
    }

    public static void main(String[] args) {
        HighLightTest highLightTest = new HighLightTest();
        highLightTest.search("必須");
    }
}

Lucene筆記35-Lucene的擴充套件-高亮索引檔案

一、對索引檔案新增高亮現在我們有一些索引檔案，怎麼對這些索引檔案新增高亮呢？首先需要根據搜尋域和值找到這篇文件，然後通過文件獲取域值，再將域值交給highlighter進行加工並返回，這個時候，返回的值就是新增過高亮的了。二、程式碼展示 package com.wsy; imp

Lucene筆記34-Lucene的擴充套件-高亮基礎

一、高亮顯示用到的類 Fragmenter：拿到一個字串之後，對字串進行分段 QueryScorer：查詢評分，將評分最高的展示給使用者 Encoder：顯示出來的文字有兩種，一種是SimpleEncode（忽略掉HTML標籤），一種是DefaultEncode（展示HTM

Lucene筆記33-Lucene的擴充套件-使用Tika建立索引並進行搜尋

一、使用Tika建立索引之前建立索引的文件都是txt檔案，現在有了Tika，我們就可以將pdf，word，html等檔案，通過Tika提取出文字，之後建立索引，建立索引的寫法和之前大致相似。只需要將content域對應的值做一下處理，之前是FileReader來讀取，現在是使用Tika.p

Lucene筆記23-Lucene的使用-簡單複習索引、檢索和分詞

一、索引索引過程中的核心類：IndexWriter、Directory、Analyzer、Document、Field。 IndexWriter用來寫索引。 Directory用來定義索引的目標位置是硬碟上還是記憶體中。 Analyzer用來分詞，常用的分詞器有：SimpleA

Lucene筆記32-Lucene的擴充套件-Tika的第二種使用方式

一、Tika的第二種使用方式第二種使用方式更加的簡單，官方文件說，相比於第一種，效率會有降低，下面來看程式碼。 // 文件上說效率沒有前一種方式高 public String fileToTextEasy(File file) { Tika tika = new Tika();

Lucene筆記31-Lucene的擴充套件-Tika介紹

一、Tika介紹 Tika是2008年由Apache組織開發的專案，主要用於開啟不同的文件。Tika的下載請點選這裡。在處理文件索引的時候，有時候會碰到pdf，html，word這種非純文字的內容，這些內容怎麼來建立索引呢，這就要用到Tika了，Tika像一個橋樑一樣，連通了IndexWri

Lucene筆記30-Lucene的擴充套件-Luke介紹

一、Luke介紹 Luke是一個查詢索引的工具，Luke的下載點選這裡看第二部分，這裡就不多講了，需要注意的是Lucene和Luke要版本匹配，否則Luke是打不開Lucene索引的。首先開啟Luke，選擇索引的目錄，就可以開啟索引，就可以看到介面了，右上角有個Re-open表示重新載入索引

lucene中文分詞以及高亮顯示

這篇部落格介紹一下如何在Lucene中使用中文分詞以及高亮顯示查詢結果中與搜尋匹配的部分 1.在pom.xml中加入相關依賴  <dependency> <groupId&g

Lucene多欄位查詢&高亮顯示

在百度搜索的時候，查詢的關鍵詞會高亮顯示在搜尋一個關鍵詞的時候，有可能這個關鍵詞在title和content中，搜尋的時候要把結果全部顯示出來例項說明 package com.bart.lucene.mutilseacher; import

Lucene筆記26-Lucene的使用-自定義QueryParser解決部分查詢的效能問題

一、使用自定義QueryParser的原因對於某些QueryParser（FuzzyQuery、WildcardQuery）在查詢時會使得效能降低，所以考慮將這些查詢取消。在具體的查詢時候，很可能有這樣一種需求：獲取的是一個數字查詢範圍，所以必須要擴充套件原有的QueryPa

Lucene筆記25-Lucene的使用-根據域進行評分設定

一、需求根據檔名來設定評分規則，或者根據文件的修改時間，將最近一年的評分加倍，一年以外的評分降低，等等。二、具體實現這裡根據檔名來修改評分規則，檔名中包含“JRE”和“SYSTEM”的評分加倍，其餘減倍。重點就是怎麼獲取到檔名，在customScore()方法中，有一個doc變

Lucene筆記24-Lucene的使用-自定義評分簡介

一、自定義評分流程有時候，Lucene提供的計算評分規則可能不符合業務需求，所以我們需要自定義評分規則，來實現自定義評分。自定義評分的流程：建立一個類繼承CustomScoreQuery、重寫getCustomScoreProvider()方法、建立CustomScoreProvider類

Lucene筆記22-Lucene的使用-Filter

一、Filter應用場景假如有人搜尋了一個關鍵詞，通過Lucene查出來了所有的文件，讀者比較關心最新的一些內容，因此需要將某些內容過濾掉。只顯示使用者敏感的文件資料即可。這就要用到過濾器。二、程式碼演示 public void filter(String queryString

Lucene筆記21-Lucene的自定義排序

一、排序介紹 Lucene對文件搜尋完成後，顯示的結果是有一個順序的，如果沒有設定排序規則，那麼這個順序就是按照文件的評分降序排列，至於評分的計算，是一個比較複雜的公式，這裡不先研究了。可是有時候，我們需要根據需求，改變預設的排序規則，這時候就要用到自定義排序啦，下面來看一下自定義排序是怎麼

Lucene筆記20-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器（良好設計方案）

一、目前存在的問題在getSameWords()方法中，我們使用map臨時存放了兩個鍵值對用來測試，實際開發中，往往需要很多的這種鍵值對來處理，比如從某個同義詞詞典裡面獲取值之類的，所以說，我們需要一個類，根據key提供近義詞。為了能更好的適應應用場景，我們先定義一個介面，其中定義一

Lucene筆記19-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器

一、同義詞分詞器的程式碼實現 package com.wsy; import com.chenlb.mmseg4j.Dictionary; import com.chenlb.mmseg4j.MaxWordSeg; import com.chenlb.mmseg4j.analysis.MM

Lucene筆記18-Lucene的分詞-實現自定義同義詞分詞器-思路分析

一、實現自定義同義詞分詞器思路分析前面文章我們提到同義詞分詞器，這裡我們先來分析下同義詞分詞器的設計思路。首先我們有一個需要分詞的字串string，通過new StringReader(string)拿到Reader。使用analyzer.tokenStream("co

Lucene筆記17-Lucene的分詞-中文分詞介紹

一、分詞器的作用分詞器的作用就是得到一個TokenStream流，這個流中儲存了分詞相關的一些資訊，可以通過屬性獲取到分詞的詳細資訊。二、自定義Stop分詞器 package com.wsy; import org.apache.lucene.analysis.*; impor

Lucene筆記16-Lucene的分詞-通過TokenStream顯示分詞的詳細資訊

一、通過TokenStream檢視分詞的詳細資訊 package com.wsy; import org.apache.lucene.analysis.*; import org.apache.lucene.analysis.standard.StandardAnalyzer; impor

Lucene筆記15-Lucene的分詞-通過TokenStream顯示分詞

一、展示分詞內容 package com.wsy; import org.apache.lucene.analysis.*; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.luc

Lucene筆記35-Lucene的擴充套件-高亮索引檔案

一、對索引檔案新增高亮

二、程式碼展示

相關推薦