【Lucene】三個高亮顯示模組的簡單示例-Highlighter

阿新 • • 發佈：2019-02-02

Lucene針對高亮顯示功能提供了兩種實現方式,分別是Highlighter和FastVectorHighlighter

這裡的三個示例都是使用Highlighter；

示例程式碼：

package com.tan.code;

import java.io.File;
import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.core.SimpleAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.InvalidTokenOffsetsException;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.search.highlight.SimpleSpanFragmenter;
import org.apache.lucene.search.highlight.TokenSources;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.SimpleFSDirectory;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class HighlighterTest {

	// 高亮處理文字（以下內容純屬虛構）
	private String text = "China has lots of people,most of them are very poor.China is very big.China become strong now,but the poor people is also poor than other controry";

	// 原文高亮
	public void highlighter() throws IOException, InvalidTokenOffsetsException {

		TermQuery termQuery = new TermQuery(new Term("field", "china"));
		TokenStream tokenStream = new SimpleAnalyzer(Version.LUCENE_43)
				.tokenStream("field", new StringReader(text));

		QueryScorer queryScorer = new QueryScorer(termQuery);
		Highlighter highlighter = new Highlighter(queryScorer);
		highlighter.setTextFragmenter(new SimpleSpanFragmenter(queryScorer));
		System.out.println(highlighter.getBestFragment(tokenStream, text));
	}

	// 使用CSS進行高亮顯示處理
	public void highlighter_CSS(String searchText) throws ParseException,
			IOException, InvalidTokenOffsetsException {

		// 建立查詢
		QueryParser queryParser = new QueryParser(Version.LUCENE_43, "field",
				new SimpleAnalyzer(Version.LUCENE_43));
		Query query = queryParser.parse(searchText);

		// 自定義標註高亮文字標籤
		SimpleHTMLFormatter htmlFormatter = new SimpleHTMLFormatter(
				"<span style=\"backgroud:red\">", "</span>");
		// 語彙單元化
		TokenStream tokenStream = new SimpleAnalyzer(Version.LUCENE_43)
				.tokenStream("field", new StringReader(text));

		// 建立QueryScoer
		QueryScorer queryScorer = new QueryScorer(query, "field");

		Highlighter highlighter = new Highlighter(htmlFormatter, queryScorer);
		highlighter.setTextFragmenter(new SimpleSpanFragmenter(queryScorer));

		System.out.println(highlighter.getBestFragments(tokenStream, text, 4,
				"..."));
	}

	// 高亮顯示搜尋結果
	public void highlighter_SR(String field, String searchText)
			throws IOException, ParseException, InvalidTokenOffsetsException {

		//本次示例為了簡便直接使用之前實驗建立的索引
		Directory directory = new SimpleFSDirectory(new File("E://MyIndex"));
		IndexReader reader = DirectoryReader.open(directory);// 讀取目錄
		IndexSearcher search = new IndexSearcher(reader);// 初始化查詢元件
		QueryParser parser = new QueryParser(Version.LUCENE_43, field,
				new IKAnalyzer(true));

		Query query = parser.parse(searchText);

		TopDocs td = search.search(query, 10000);// 獲取匹配上元素的一個docid
		ScoreDoc[] sd = td.scoreDocs;// 載入所有的Documnet文件

		System.out.println("本次命中資料:" + sd.length);
		QueryScorer scorer = new QueryScorer(query, "content");

		Highlighter highlighter = new Highlighter(scorer);
		highlighter.setTextFragmenter(new SimpleSpanFragmenter(scorer));

		for (ScoreDoc scoreDoc : sd) {
			Document document = search.doc(scoreDoc.doc);
			String content = document.get("content");
			TokenStream tokenStream = TokenSources.getAnyTokenStream(
					search.getIndexReader(), scoreDoc.doc, "content", document,
					new IKAnalyzer(true));
			System.out.println(highlighter
					.getBestFragment(tokenStream, content));
		}
	}
}

測試程式碼：

	@Test
	public void test() throws IOException, InvalidTokenOffsetsException,
			ParseException {
		// fail("Not yet implemented");
		HighlighterTest highlighterTest = new HighlighterTest();
		highlighterTest.highlighter();
		highlighterTest.highlighter_CSS("china");
		highlighterTest.highlighter_CSS("poor");
		highlighterTest.highlighter_SR("content", "床前明月光");
	}

測試結果：

<B>China</B> has lots of people,most of them are very poor。<B>China</B> is very big.<B>China</B> become strong now,but the poor people is also poor than other controry
<span style="backgroud:red">China</span> has lots of people,most of them are very poor。<span style="backgroud:red">China</span> is very big.<span style="backgroud:red">China</span> become strong now,but the poor people is also poor than other controry
China has lots of people,most of them are very <span style="backgroud:red">poor</span>。China is very big.China become strong now,but the <span style="backgroud:red">poor</span> people is also <span style="backgroud:red">poor</span> than other controry
本次命中資料:1
<B>床</B><B>前</B><B>明月光</B>，疑是地上霜

【本例參考《Lucene In Action》】

【Lucene】三個高亮顯示模組的簡單示例-Highlighter

Lucene針對高亮顯示功能提供了兩種實現方式,分別是Highlighter和FastVectorHighlighter 這裡的三個示例都是使用Highlighter；示例程式碼： package com.tan.code; import java.io.File; i

【前端】三個bug

1.5 nbsp 取數 -1 元素 spa asc 包括解決目錄一、Array對象的indexOf() 二、使用jquery，clone()下拉框問題三、jquery獲取獲取html5的data-*屬性一、Array對象的indexOf()

【Python】三個例子教你寫代碼

位數 mage int 1-1000 image end src orm origin 這篇文章包括用Python編寫的斐波那契數列，三位數的水仙花數和百錢買百雞的基礎代碼：（一）斐波那契數列： ‘‘‘ def hanshu(n): n_1 = 1 n_2 =

MT【177】三個乘積和

.com 分享圖片圖片 isp splay http bubuko 技術 TP 對任意 2 個 1,2,3,4,5,6 的全排列 $(a_1,a_2,a_3,a_4,a_5,a_6)$ 和 $(b_1,b_2,b_3,b_4,b_5,b_6)$，求$\displaysty

【RQNOJ85】三個袋子【矩陣乘法】

題目大意：題目連結：http://www.rqnoj.cn/problem/85 求 n n n個

vim + ctags + taglist配置和使用【及】一鍵安裝 ctags和cscope的方法【及】vim語法高亮,自動縮排，python 自動縮排設定

1, vim + ctags + taglist配置和使用 taglist依賴於ctags，所以要先裝ctags，否則taglist裝了也沒法用！ 1、首先安裝ctags 首先是ctags的安裝，推薦使用exuberant ctags，我們可以從其官方網站上下載它的原始碼包

【OneNote】插入語法高亮的程式碼

問題如何在 OneNote 中插入語法高亮的程式碼片段來源一向傲嬌的 OneNote 拒絕我插♂入語法高亮的程式碼片段好感度低時經常做出如下回應：程式碼縮排沒了程式碼背景奇怪程式碼高亮沒了提示您是盜版軟體的受害者（大霧）為了能

lucene筆記十 :關於高亮顯示和顯示部分原始檔案的原則

高亮顯示查詢項有一個能使搜尋引擎變得更友好的辦法，那就是向你的使用者提供一些搜尋命中結果的上下文，而且更為重要的是這樣做是非常有用的。最好的例子就是本系統使用者在查詢天氣Web服務時的搜尋結果。如下圖1所示，每個命中結果包括了匹配文件的三行左右的內容，並且將查詢項高亮顯示

全文檢索Lucene（三）--中文分詞與高亮顯示

一、中文分詞smartcn 二、檢索結果高亮顯示實現首先，建立maven專案，新增相關依賴。<dependencies> <dependency> <groupId>org.apache.lucene</g

【轉載】讓sublime text3支援Vue語法高亮顯示

【轉載】作者：zhangwenwu的前端小站來源：CSDN 原文：https://blog.csdn.net/zhangwenwu2/article/details/72236609 1.準備語法高亮外掛vue-syntax-highlight。下載地址： https:/

Lucene基礎（三）-- 中文分詞及高亮顯示

Lucene分詞器及高亮分詞器在lucene中我們按照分詞方式把文件進行索引，不同的分詞器索引的效果不太一樣，之前的例子使用的都是標準分詞器，對於英文的效果很好，但是中文分詞效果就不怎麼樣，他會按照漢字的字直接分詞，沒有詞語的概念。使用分詞的地方

【潤乾報表5】HTML事件--滑鼠移入高亮顯示

需求：滑鼠移入某個單元格時高亮顯示該格。（例項報表中同時設有隔行變色）下面以潤乾報表5自帶報表例項【訂單.rpx】為例，實現滑鼠移入高亮顯示實現如上需求需要單元格HTML事件+自定義js方法結合使用,下面我們對A2單元格設定

【linux】vim設定語法高亮顯示和自動縮排

1、配置檔案的位置在目錄 /etc/ 下面，有個名為vimrc的檔案，這是系統中公共的vim配置檔案，對所有使用者都有效。而在每個使用者的主目錄下，都可以自己建立私有的配置檔案，命名為：“.vimrc”。例如，/root目錄下，通常已經存在一個.vimrc檔案。

【Flask】4個session（三）Flask_session擴充套件包

在上一篇文章4個session（二）中的session是Flask內建的，本篇文章要討論的是Flask_session擴充套件包。安裝命令： pip3 install flask-session 匯入方式： from flask_session import Session

lucene 中文分詞和結果高亮顯示

要使用中文分詞要加入新的依賴 smartcn  <dependency> &

模糊查詢關鍵字高亮顯示以及多個關鍵字的匹配定位

需求中我們經常會遇到模糊查詢的方式渲染資料，效果類似於下圖： js渲染資料的方式如下： var keyword = $("#searchSchool").val(); for(var i=0;i<data.schoolNames.length;i++){ var renderPa

lucene中文分詞以及高亮顯示

這篇部落格介紹一下如何在Lucene中使用中文分詞以及高亮顯示查詢結果中與搜尋匹配的部分 1.在pom.xml中加入相關依賴  <dependency> <groupId&g

Solr===>>查詢結果高亮顯示===>>程式碼僅將查詢到的第一個solr域中的第一個值高亮顯示

// 查詢結果高亮顯示 public Map<String, Object> searchHightLight(Map searchMap){ Map map=new HashMap(); HighlightQuery query = ne

【Linux多執行緒】三個經典同步問題

在瞭解了《同步與互斥的區別》之後，我們來看看幾個經典的執行緒同步的例子。相信通過具體場景可以讓我們學會分析和解決這類執行緒同步的問題，以便以後應用在實際的專案中。一、生產者-消費者問題問題描述：一組生產者程序和一組消費者程序共享一個初始為空、大

Lucene學習之高亮顯示

在搜尋引擎中我們經常會看到這樣的情景：紅色部分我們稱之為高亮顯示，lucene提供了HighLighter模組來實現這一功能。高亮顯示模組通常包含兩個獨立的功能，首先是動態拆分，就是從匹配搜尋的大量文字中選取一小部分句子。第二個內容就是高亮顯示。我們先來看下高亮顯示的原理：

【Lucene】三個高亮顯示模組的簡單示例-Highlighter

相關推薦