ElasticSearch學習筆記-同義詞記錄

阿新 • • 發佈：2019-02-14

import java.io.IOException;
import java.io.Reader;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;

public class IKTokenizer extends Tokenizer {

	private IKSegmenter _IKImplement = null;

	private final CharTermAttribute termAtt;
	
	private final OffsetAttribute offsetAtt;
	
	private final TypeAttribute typeAtt;

	private int endPosition;
	
	public IKTokenizer(boolean useSmart) {
		offsetAtt = addAttribute(OffsetAttribute.class);
		termAtt = addAttribute(CharTermAttribute.class);
		typeAtt = addAttribute(TypeAttribute.class);
		_IKImplement = new IKSegmenter(input, useSmart);
	}

	public IKTokenizer(Reader in, boolean useSmart) {
		offsetAtt = addAttribute(OffsetAttribute.class);
		termAtt = addAttribute(CharTermAttribute.class);
		typeAtt = addAttribute(TypeAttribute.class);
		_IKImplement = new IKSegmenter(input, useSmart);
	}

	@Override
	public boolean incrementToken() throws IOException {
		clearAttributes();
		Lexeme nextLexeme = _IKImplement.next();
		if (nextLexeme != null) {
			termAtt.append(nextLexeme.getLexemeText());
			termAtt.setLength(nextLexeme.getLength());
			offsetAtt.setOffset(nextLexeme.getBeginPosition(), nextLexeme.getEndPosition());
			endPosition = nextLexeme.getEndPosition();
			typeAtt.setType(nextLexeme.getLexemeTypeString());
			return true;
		}
		return false;
	}

	@Override
	public void reset() throws IOException {
		super.reset();
		_IKImplement.reset(input);
	}

	@Override
	public final void end() {
		int finalOffset = correctOffset(this.endPosition);
		offsetAtt.setOffset(finalOffset, finalOffset);
	}

}

import java.io.IOException;
import java.util.HashMap;
import java.util.Map;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.WhitespaceTokenizer;
import org.apache.lucene.analysis.synonym.SynonymFilterFactory;
import org.apache.lucene.analysis.util.ClasspathResourceLoader;
import org.apache.lucene.util.Version;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

public class IKSynonymsAnalyzer extends Analyzer {
	
	private Logger LOG = LoggerFactory.getLogger(IKSynonymsAnalyzer.class);
	
	private Boolean useSmart = null;
	
	public IKSynonymsAnalyzer() {
		
	}
	
	public IKSynonymsAnalyzer(boolean useSmart) {
		this.useSmart = useSmart;
	}

	@Override
	protected TokenStreamComponents createComponents(String fieldName) {
		Map<String, String> filterArgs = new HashMap<String, String>();
		filterArgs.put("synonyms", "elastic/synonyms_1.txt,elastic/synonyms_2.txt");
		filterArgs.put("luceneMatchVersion", Version.LUCENE_5_5_2.toString());
		filterArgs.put("expand", "true");
		SynonymFilterFactory factory = new SynonymFilterFactory(filterArgs);
		try {
			factory.inform(new ClasspathResourceLoader());
		} catch (IOException e) {
			LOG.error(e.getMessage(), e);
		}
		Tokenizer tokenizer = null == useSmart ? new WhitespaceTokenizer() : new IKTokenizer(useSmart);
		return new TokenStreamComponents(tokenizer, factory.create(tokenizer));  
	} 
	
}

import java.io.StringReader;
import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.cisiondata.modules.elastic.analyzer.IKSynonymsAnalyzer;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;

public class ElasticUtils {

	private static Logger LOG = LoggerFactory.getLogger(ElasticUtils.class);
	
	private static Analyzer ikanalyzer = new IKSynonymsAnalyzer();
	
	/**
	 * 分詞
	 * @param input
	 * @param userSmart  true 用智慧分詞   false 細粒度分詞
	 * @return
	 */
	public static String[] analyze(String input, boolean userSmart) {
		List<String> results = new ArrayList<String>();
		try {
			IKSegmenter ikSeg = new IKSegmenter(new StringReader(input.trim()), userSmart);
			for (Lexeme lexeme = ikSeg.next(); lexeme != null; lexeme = ikSeg.next()) {
				results.add(lexeme.getLexemeText());
			}
		} catch (Exception e) {
			LOG.error(e.getMessage(), e);
		}
		return results.toArray(new String[0]);
	}
	
	public static String[] convertSynonyms(String input) {
		return convertSynonyms(ikanalyzer, input);
	}

	/**
	 * 同義詞匹配，返回TokenStream
	 */
	public static String[] convertSynonyms(Analyzer analyzer, String input) {
		Set<String> results = new HashSet<String>();
		TokenStream tokenStream = analyzer.tokenStream("fields", input);
		CharTermAttribute termAttribute = tokenStream.addAttribute(CharTermAttribute.class);
		try {
			tokenStream.reset();
			while (tokenStream.incrementToken()) {
				results.add(termAttribute.toString());
			}
			tokenStream.end();
			tokenStream.close();
		} catch (Exception e) {
			LOG.error(e.getMessage(), e);
		}
		return results.toArray(new String[0]);
	}
	
}

BoolQueryBuilder boolQueryBuilder = new BoolQueryBuilder();
String[] keywords = ElasticUtils.convertSynonyms(valueString);
for (int i = 0, len = keywords.length; i < len; i++) {
boolQueryBuilder.should(QueryBuilders.matchPhraseQuery(name, keywords[i]));
}

ElasticSearch學習筆記-同義詞記錄

import java.io.IOException; import java.io.Reader; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.tokenattributes.CharTerm

ElasticSearch學習筆記--安裝

upd 建議 node .html 添加 logs cat sea 版本 1、安裝ElasticSearch https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-index_.html

elasticsearch學習筆記--原理介紹

restfu 及其觸發 com 相似之處 mpi fsync rip 開源代碼前言：上一篇中我們對ES有了一個比較大概的概念，知道它是什麽，幹什麽用的，今天給大家主要講一下他的工作原理介紹：ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分布

ElasticSearch學習筆記--2、ES相關配置

last 學習 -- code logs 相關數 clas 名稱 config 1、配置文件 ES的配置文件位置：config/elasticsearch.yml可以直接搜索elasticsearch.yml 2、配置遠程api訪問 network.host: 192

Elasticsearch學習筆記（四）ElasticSearch分布式機制

clas cse 負載均衡丟失數據不可分布式復雜發生一、Elasticsearch對復雜分布式機制透明的隱藏特性 1、分片機制：（1）index包含多個shard，每個shard都是一個最小工作單元，承載部分數據，lucen

Elasticsearch學習筆記（六）核心概念和分片shard機制

服務器存儲 play wid 讀寫 number 容錯組成操作一、核心概念 1、近實時（Near Realtime NRT）（1）從寫入數據到數據可以被搜索到有一個小延遲（大概1秒）；（2）基於es執行搜索和分析可以達到秒級

Elasticsearch學習筆記（九）partial update

cse adding 操作 nbsp 進行樂觀 gin clas 比較一、什麽是partial update？ PUT /index/type/id，創建文檔&替換文檔，就是一樣的語法一般對應到應用程序中，每次的執行流程基本是這樣的：（1）應

Elasticsearch學習筆記（十）批量查詢mget、批量增刪改bulk

出錯 color body 換行 nor test 增刪 doc document 一、批量查詢 mget GET /_mget { "docs":[ { "_index":"ecommerce

Elasticsearch學習筆記——安裝和數據導入

itl ati shard eat ada 分享 must 數據分享圖片到elasticsearch網站下載最新版本的elasticsearch 6.2.1 https://www.elastic.co/downloads/elasticsearch 下載tar包

elasticsearch學習筆記——相關插件

成了內容數據庫 hub 數據收集參考 art 完整 con logstash-input-jdbc學習　　ES(elasticsearch縮寫)的一大優點就是開源，插件眾多。所以擴展起來非常的方便，這也造成了它的生態系統越來越強大。這種開源分享的思想真是與天朝格

ElasticSearch學習筆記（三）

elastic ise inf arc img png cse 演示 earch 1. URISearch詳解與演示 ElasticSearch學習筆記（三）

ElasticSearch學習筆記（四）

分布式 png elastic cer 筆記連接訪問 eas 副本 1. 分布式介紹及cerebro cerebro插件點擊release下載解壓運行訪問9000端口，連接es的9200端口 2. 構建集群新增一個節點 3. 副本

Elasticsearch學習筆記

高可用 byte 操作 ik分詞器 b-tree索引簡單介紹分析算法 -i tps 一、Es簡單介紹含義：Elasticsearch是一個可伸縮的開源全文搜索和分析引擎，它使你可以快速且接近實時的去保存，查詢和分析海量的數據，他的潛在應用場景是作為一些有復雜搜索功能和

ElasticSearch學習筆記之二十八細說Pipeline Aggregations

ElasticSearch學習筆記之二十八細說Pipeline Aggregations Avg Bucket Aggregation(平均值分組聚合) Syntax(語法) avg_bucket 引數 Max Bucket Ag

ElasticSearch學習筆記之二十七 Pipeline Aggregations

ElasticSearch學習筆記之二十七 Pipeline Aggregations Pipeline Aggregations buckets_path 語法 Special Paths(特殊路徑) Dealing with dots

ElasticSearch學習筆記之三十二 JAVA Client 之 Exists Delete Update APIs

ElasticSearch學習筆記之三十二 JAVA Client 之 Exists Delete Update APIs Exists API Exists Request Synchronous Execution(同步執行) Asy

ElasticSearch學習筆記之三十一 JAVA Client 之 GET APIs

ElasticSearch學習筆記之三十一 JAVA Client 之 GET APIs Get API Get Request Optional arguments(引數配置) Synchronous Execution(同步執行)

ElasticSearch學習筆記之三十 JAVA Client 之 Document APIs

ElasticSearch學習筆記之三十 JAVA Client 之文件請求概述 Document APIs(文件APIS) Index API Index Request(索引請求) Providing the document sou

ElasticSearch學習筆記之二十九 Java REST Client

ElasticSearch學習筆記之二十九 Java REST Client Java REST Client Java High Level REST Client Compatibility(相容性) Javadoc Maven Reposi

ElasticSearch學習筆記之二十二指標聚合續

ElasticSearch學習筆記之二十二指標聚合續 Max Aggregation Min Aggregation Percentiles Aggregation Stats Aggregation Sum Aggregation Va

ElasticSearch學習筆記-同義詞記錄

相關推薦