中文分詞之Java實現使用IK Analyzer實現

阿新 • • 發佈：2019-02-18

需要在專案中引入：

IKAnalyzer.cfg.xml

IKAnalyzer2012.jar

lucene-core-3.6.0.jar

stopword.dic

什麼都不用改

示例程式碼如下(使用IK Analyzer):

package com.haha.test;

import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class Test2 {
	public static void main(String[] args) throws IOException {
		String text="基於java語言開發的輕量級的中文分詞工具包";
		//建立分詞物件
		Analyzer anal=new IKAnalyzer(true);		
		StringReader reader=new StringReader(text);
		//分詞
		TokenStream ts=anal.tokenStream("", reader);
		CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
		//遍歷分詞資料
		while(ts.incrementToken()){
			System.out.print(term.toString()+"|");
		}
		reader.close();
		System.out.println();
	}

}

執行後結果:

基於|java|語言|開發|的|輕量級|的|中文|分詞|工具包|

使用(lucene)實現:

package com.haha.test;

import java.io.IOException;
import java.io.StringReader;

import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;

public class Test3 {
	
	public static void main(String[] args) throws IOException {
		String text="基於java語言開發的輕量級的中文分詞工具包";
		StringReader sr=new StringReader(text);
		IKSegmenter ik=new IKSegmenter(sr, true);
		Lexeme lex=null;
		while((lex=ik.next())!=null){
			System.out.print(lex.getLexemeText()+"|");
		}
	}

}

中文分詞之Java實現使用IK Analyzer實現

需要在專案中引入： IKAnalyzer.cfg.xml IKAnalyzer2012.jar lucene-core-3.6.0.jar stopword.dic 什麼都不用改示例程式碼如下(使用IK Analyzer): package com.ha

Elasticsearch之中文分詞器外掛es-ik的自定義詞庫

開發十年，就只剩下這套架構體系了！ >>>

【轉】中文分詞之HMM模型詳解

實現含義 jieba 順序清晰 bsp 中國 matrix 統計關於HMM模型的介紹，網上的資料已經爛大街，但是大部分都是在背書背公式，本文在此針對HMM模型在中文分詞中的應用，講講實現原理。盡可能的撇開公式，撇開推導。結合實際開源代碼作為例子，爭取做到雅俗共賞，

elasticsearch 中文分詞（elasticsearch-analysis-ik）安裝

star 最好好玩的 failed dex source 在線 3.0 github elasticsearch 中文分詞（elasticsearch-analysis-ik）安裝下載最新的發布版本 https://github.com/medcl/elasticsea

【NLP】【一】中文分詞之jieba

宣告：本文參考jieba官方文件而成，官方連結：https://github.com/fxsjy/jieba 【一】jieba安裝 pip install jieba 【二】jieba簡介簡介可見jieba官方說明：https://pypi.org/project/jieba/

學習筆記--中文分詞之結巴分詞(二)

結巴中文分詞簡介 1）支援三種分詞模式：精確模式：將句子最精確的分開，適合文字分析全模式：句子中所有可以成詞的詞語都掃描出來，速度快，不能解決歧義搜尋引擎模式：在精確的基礎上，對長詞再次切分，提高召回 2）支援繁體分詞 3）支援自定義詞典

elasticsearch 中文分詞器 elasticsearch-analysis-ik

一、IK分詞器安裝 2、在 elasticsearch-5.4.0/plugins/ 目錄下新建名為 ik 的資料夾，拷貝elasticsearch-analysis-ik-5.4.0目錄下所有的檔案到 elasticsearch-5.4.0/plugins/ik/ 目

elasticsearch安裝中文分詞擴充套件elasticsearch-analysis-ik

github: https://github.com/medcl/elasticsearch-analysis-ik 安裝方式 1、先檢視版本號： http://localhost:9200/ 2、安裝 ./bin/elasticsearch-plugin install

Windows系統中Elasticsearch安裝中文分詞外掛elasticsearch-analysis-ik

前言系統：Windows10elasticsearch版本：5.6.6中文分詞版本：5.6.6（需要與elasticsearch版本匹配）maven版本：3.5.5安裝step1 官網下載合適的版本選擇合適的版本，並下載： step2 解壓到某個目錄下目錄結構如下：step3

中科院中文分詞在java中呼叫詳解（ICTCLAS2013版）

在中文分詞的時候，現在流行的有很多，下面主要介紹中科院中文分詞，現在中科院地址是http://ictclas.nlpir.org/ 首先也是開始呼叫這個介面，呼叫成功後覺得應該共享出來，讓更多人去使用。然後主要是介紹一下怎麼用使用漢語分詞系統怎麼去呼叫。必須先在上面那個網

自然語言處理--中文分詞之機械分詞

說到自然語言處理，對於中文首當其衝的就是分詞。和西方語言不同，中文句子中不像英語，每個單詞間有空格隔開，而是全部連在一起，詞間沒有明顯的界限。這就為我們的翻譯、檢索等等更高階的資訊處理帶來了不小的麻煩，怎樣將一句話中的關鍵詞提取出來，便成為了中文資訊處理首先要

中文分詞之正向最大匹配演算法

中文分詞目前可以分為“規則分詞”，“統計分詞”，“混合分詞（規則+統計）”這三個主要流派。這次介紹下基於規則的分詞，其是一種機械的分詞方法，主要通過維護詞典，在切分語句時，將語句的每個字串與詞表中的詞逐一進行匹配，找到則切分，否則不予切分。正向最大匹配演算法

中文分詞之HMM模型詳解

關於HMM模型的介紹，網上的資料已經爛大街，但是大部分都是在背書背公式，本文在此針對HMM模型在中文分詞中的應用，講講實現原理。儘可能的撇開公式，撇開推導。結合實際開原始碼作為例子，爭取做到雅俗共賞，童叟無欺。沒有公式，就沒有傷害。模型介紹第一次聽說HMM模型是從李

jieba.NET是jieba中文分詞的.NET版本（C#實現）。

jieba.NET是jieba中文分詞的.NET版本（C#實現）。當前版本為0.38.2，基於jieba 0.38，提供與jieba一致的功能與介面，以後可能會在jieba基礎上提供其它擴充套件功能。關於jieba的實現思路，可以看看這篇wiki裡提到的資料。如果

自然語言處理基於java實現(1) 之中文分詞

下一篇<自然語言處理基於java實現(2) 之詞性註釋> 程式原始碼下載一. 題目如下: 1、針對人民日報語料，編寫程式：抽取詞表統計總詞數、不同的詞及其次數。輸出檔案格式：第一行

中文分詞Java簡單實現

中文分詞Java簡單實現存備忘 package helloJavaWorld; //用棧存取詞語 class StackTest { private Object[] stack; //元素個數; private int size; //預設長度

Elasticsearch之IK分詞器 java api

一、Elasticsearch分詞在elasticsearch自帶的分詞器中，對中文分詞是支援的，只是所有的分詞都是按照單字進行分詞的，例如所帶的標準的分詞器standard分詞器，可以按照如下的方式查詢是如何進行分詞的 http://localhost:9200/iktest/_anal

java HashMap實現中文分詞器應用：敏感詞過濾實現

今天下午部門內部技術分享是分詞器演算法。這次的主講是大名鼎鼎的Ansj分詞器的作者-孫健。作者簡介： Ansj分詞器作者 elasticsearch-sql（elasticsearch的sql外掛）作者，支援sql查詢 nlp-lang自然語言工具包發起人 NLPCN（自然語言處理

solr 中文分詞mmeseg4j與ik analyzer效果對比

摘要：之前用solr6成功集成了中文分詞mmeseg4j，也順利整合了ik analyzer，對比一下他們分詞的效果。 1884年,中法戰爭時被派福建會辦海疆事務。 ik analyzer：18

elasticsearch6.2.2安裝中文分詞外掛IK analyzer

哎，裝了一下午的ik終於裝上了，發現自己真的是非常笨了，並且es重啟過程中遇到了很多的問題，下面我將手把手教大家如何安裝ik，儘可能細緻些，如果大家哪裡不懂的可以留言或者發email到本人郵箱[email protected]，這裡我下載的es 版本為

中文分詞之Java實現使用IK Analyzer實現

相關推薦