lucene構建同義詞分詞器

阿新 • • 發佈：2019-01-10

lucene4.0版本以後已經用TokenStreamComponents 取代了TokenStream流。裡面包括了filter和tokenizer

在較複雜的lucene搜尋業務場景下，直接網上下載一個作為專案的分詞器，是不夠的。那麼怎麼去評定一箇中文分詞器的好與差：一般來講，有兩個點；詞庫和搜尋效率，也就是演算法。

lucene的倒排列表中，不同的分詞單元有不同的PositionIncrementAttribute，如果兩個詞之間PositionIncrementAttribute距離為0，則為同義詞；比如：我定義美國和中國這兩個詞在倒排列表中是同一個位置及距離為0，那麼搜尋美國的話，中國也能出來。這就是同義詞搜尋原理。

以下程式碼（用mmseg的 Tokenizer 去切詞之後，然後再做同義詞）：

先自定義分詞器：

package hhc;

import java.io.Reader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;

import com.chenlb.mmseg4j.Dictionary;
import com.chenlb.mmseg4j.MaxWordSeg;
import com.chenlb.mmseg4j.analysis.MMSegTokenizer;

/**
 * 寫一個分詞器，一般可以參照原來分詞器是怎麼寫法的
 * @author hhc
 *
 */
public class MySameAnalyzer extends Analyzer{
	//同義詞
	private SamewordContext samewordContext=null;
	
	public MySameAnalyzer(SamewordContext samewordContext){
		this.samewordContext=samewordContext;
	}

	@Override
	public TokenStream tokenStream(String fieldName, Reader reader) {
		// 
		Dictionary dic=Dictionary.getInstance();
		return new MySameTokenFilter(new MMSegTokenizer(new MaxWordSeg(dic), reader),samewordContext);
	}

}

然後再對TokenStream流做同義詞處理

package hhc;

import java.io.IOException;
import java.util.Stack;

import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
import org.apache.lucene.util.AttributeSource;

public class MySameTokenFilter extends TokenFilter {
	// 分詞單元資訊
	private CharTermAttribute cta = null;
	// 位置資訊
	private PositionIncrementAttribute pia = null;
	// 狀態
	private AttributeSource.State current;
	// 同義詞集合
	private Stack<String> sames = null;
	private SamewordContext samewordContext=null;

	protected MySameTokenFilter(TokenStream input,SamewordContext samewordContext) {
		super(input);
		cta = input.addAttribute(CharTermAttribute.class);
		pia = input.addAttribute(PositionIncrementAttribute.class);
		sames=new Stack<String>();
		this.samewordContext=samewordContext;
	}

	@Override
	public boolean incrementToken() throws IOException {
		try {
			if (sames!=null&&sames.size()> 0) {
				// 刪除物件在堆疊,然後返回的物件上的函式值，並且獲取這個同義詞
				String str = sames.pop();
				// 還原狀態
				restoreState(current);
				cta.setEmpty();
				cta.append(str);
				pia.setPositionIncrement(0);
				return true;
			}
			// 如果流中沒有資料了。
			if (!input.incrementToken())return false;

			/**
			 * 流中有資料的話，進行相應的同義詞
			 */
			// 處理切分出來的詞的資訊
			if (existAddSameword(cta.toString())) {
				// 把當前狀態先儲存
				current = captureState();
			}
		} catch (Exception e) {
			// TODO: handle exception
			e.printStackTrace();
		}
		return true;
	}

	/**
	 * 判斷是否該分詞單元存在
	 * 
	 * @param word
	 * @return
	 */
	private boolean existAddSameword(String word) {
	    String[] words=samewordContext.getSameword(word);
		if (words != null) {
			for (String s : words) {
				sames.push(s);
			}
			return true;
		}
		return false;
	}

}

lucene構建同義詞分詞器

lucene4.0版本以後已經用TokenStreamComponents 取代了TokenStream流。裡面包括了filter和tokenizer 在較複雜的lucene搜尋業務場景下，直接網上下載一個作為專案的分詞器，是不夠的。那麼怎麼去

Lucene筆記20-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器（良好設計方案）

一、目前存在的問題在getSameWords()方法中，我們使用map臨時存放了兩個鍵值對用來測試，實際開發中，往往需要很多的這種鍵值對來處理，比如從某個同義詞詞典裡面獲取值之類的，所以說，我們需要一個類，根據key提供近義詞。為了能更好的適應應用場景，我們先定義一個介面，其中定義一

Lucene筆記19-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器

一、同義詞分詞器的程式碼實現 package com.wsy; import com.chenlb.mmseg4j.Dictionary; import com.chenlb.mmseg4j.MaxWordSeg; import com.chenlb.mmseg4j.analysis.MM

Lucene筆記18-Lucene的分詞-實現自定義同義詞分詞器-思路分析

一、實現自定義同義詞分詞器思路分析前面文章我們提到同義詞分詞器，這裡我們先來分析下同義詞分詞器的設計思路。首先我們有一個需要分詞的字串string，通過new StringReader(string)拿到Reader。使用analyzer.tokenStream("co

Lucene實現自定義中文同義詞分詞器

----------------------------------------------------------lucene的分詞_中文分詞介紹---------------------------------------------------------- Paod

搜索引擎系列四：Lucene提供的分詞器、IKAnalyze中文分詞器集成

author oid core 長度 maven項目 int get attribute clu 一、Lucene提供的分詞器StandardAnalyzer和SmartChineseAnalyzer 1.新建一個測試Lucene提供的分詞器的maven項目LuceneAn

基於高版本Lucene的中文分詞器（IK分詞器）的DEMO

注意為了大家方便，我沒有遮蔽資料庫，專案中用的資料來源請各位碼友不要亂搞~謝謝緣起日前專案中需要用到Lucene.且需要中文分詞，看了下IK分詞器，但是IK分詞器貌似只支援到lucene的3.X。後期的版本就不支援了，在網上找了一部分資料，自己寫了一個demo.因為中間

（五）Lucene——中文分詞器

實現 ext cse ron -a tag 大小 -c .com 1. 什麽是中文分詞器對於英文，是安裝空格、標點符號進行分詞對於中文，應該安裝具體的詞來分，中文分詞就是將詞，切分成一個個有意義的詞。比如：“我的中國人”，分詞：我、的、中

Lucene.net(4.8.0) 學習問題記錄五: JIEba分詞和Lucene的結合，以及對分詞器的思考

+= d+ ext eth reac chart rdl ret start 前言：目前自己在做使用Lucene.net和PanGu分詞實現全文檢索的工作，不過自己是把別人做好的項目進行遷移。因為項目整體要遷移到ASP.NET Core 2.0版本,而Lucene使用的版本

Lucene介紹及簡單入門案例（集成ik分詞器）

chinese depend 創建索引圖片 latest frame numeric id字段 div 介紹　　　　Lucene是apache軟件基金會4 jakarta項目組的一個子項目，是一個開放源代碼的全文檢索引擎工具包，但它不是一個完整的全文檢索引擎，而是一個

Lucene搜尋引擎-分詞器

文章目錄 Lucene初識適用場景特性 Lucene初識分詞器正向索引反向索引 Lucene自帶分詞器專案整合IKAnalyzer分詞器 IKAnalyze擴充套件

Lucene筆記14-Lucene的分詞-分詞器的原理講解

一、分詞器原理最主要的分詞器有SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer。先來研究一下SimpleAnalyzer。當一串資料傳進來之後，會被轉化成TokenStream這樣一個東西，這個TokenS

自定義lucene分詞器，單字分詞

在SearchManager裡定義分詞器 public class LuceneManager implements SearchManager { Analyzer analyzer = new ZCJChineseAnalyzer(); //&nbs

lucene英文分詞器（StandarAnalyzer）中會被忽略的詞（stopWords）

使用Lucene進行索引查詢時發現有一部分詞會被分詞器直接忽略掉了，被忽略的分詞稱為stopWords,在英文中通常是一些語氣助詞或者無法表達明確含義的詞。在定義含有stopWords分詞器的時候都會指定stopWords，如果沒有指定可以引用預設的stop

lucene的分詞器寶典

分詞器概念介紹： Analyzer類（分詞器）就是把一段文字中的詞按某些規則取出,提供和以後查詢時使用的工具類，注意在建立索引時會用到分詞器，在使用字串搜尋時也會用到分詞器，這兩個地方要使用同一個分詞器，否則可能會搜尋不出結果分詞器工作流程： 1，切分關鍵詞 2，去除停用詞

lucene的分詞器的簡單應用例項

方法呼叫流程圖：第一步：呼叫tokenStream方法：第二步：呼叫createComponents方法生成TokenStreamComponents 第三步：分詞的具體邏輯處理，並把分好的詞放在自定義的attribute中程式碼實現： package com.shideb

solr 6.2.0系列教程（二）IK中文分詞器配置及新增擴充套件詞、停止詞、同義詞

前言 2、solr的不同版本，對應不同版本的IK分詞器。由於IK 2012年停止更新了。所以以前的版本不適合新版的solr。有幸在網上扒到了IK原始碼自己稍微做了調整，用來相容solr6.2.0版本。IK原始碼下載地址步驟 1、解壓下載的src.rar壓縮包，這是我建

Lucene之中文庖丁解牛(mmseg)分詞器-yellowcong

庖丁解牛分詞器，分詞器和Lucene的版本需要注意，有可能有衝突，報錯，我最開始是1.8.5的mmseg4j和一個lucene有衝突，後來，換了Mmseg4j版本後，就好了下載地址 #這個

Lucene+分詞器精確提取使用者自定義關鍵詞(Lucene版本3.6)

此篇部落格的Lucene版本是3.6.0，若您的Lucene版本為5.X可以移步到此博文http://blog.csdn.net/echoyy/article/details/78468225 在分詞的過程中，有時候需要只提取詞典裡自定義好的關鍵詞，而傳統的分詞工具如(I

Lucene分詞器之庖丁解牛

注意:這裡配置環境變數要重新啟動系統後生效我現在測試用的Lucene版本是lucene-2.4.0,它已經能夠支援中文分詞,但它是採用一元分詞(逐字拆分)的方法,即把每一個漢字當作是一個詞,這樣會使建立的索引非常龐大,會影響查詢效率.所以大多運用lucene的朋友,都會考慮使用其它的中文分詞包,這裡我就

lucene構建同義詞分詞器

相關推薦