MMSeg4j 分詞器

阿新 • • 發佈：2019-01-02

MMSeg4j用Chih-Hao Tsai 的MMSeg演算法實現的中文分詞器，並實現lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。

MMSeg 演算法有兩種分詞方法：Simple和Complex，都是基於正向最大匹配。Complex加了四個規則過濾。官方說：詞語的正確識別率達到了 98.41%。MMSeg4j已經實現了這兩種分詞演算法。

Maven依賴

<dependency>
    <groupId>com.chenlb.mmseg4j</groupId>
    <artifactId 
>mmseg4j-core</artifactId>
    <version>1.10.0</version>
</dependency>

一個簡單應用

public static List<String> segmentWords(String txt) {
    List<String> words = new ArrayList<String>();
    Dictionary dic = Dictionary.getInstance();
    MMSeg mmSeg = new MMSeg(new 
 StringReader(txt), new ComplexSeg(dic));
    Word word = null;
    try {
        while ((word = mmSeg.next()) != null) {
            String w = word.getString();
            words.add(w);
        }
    } catch (IOException e) {
        throw new ServiceErrorException(e);
    }
    return words;
}

public 
 static void main(String[] args) {
    SString txt = "";
    txt = "京華時報1月23日報道 昨天，受一股來自中西伯利亞的強冷空氣影響，本市出現大風降
溫天氣，白天最高氣溫只有零下7攝氏度，同時伴有6到7級的偏北風。";
    txt = "研究生命起源";
    txt = "手機電子書    abc   http://www.sjshu.com";
    txt = "Apple 蘋果 MacBook Pro MB991CH/A 13.3m寸寬屏筆記本(Ⅱ,⑩)";
    System.out.println(segmentWords(txt));
}

Lucene5學習之使用MMSeg4j分詞器

MMSeg4j是一款中文分詞器，詳細介紹如下： 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 演算法(http://technology.chtsai.org/mmseg/ )實現的中文分詞器，並實現 lucene 的 analy

solr安裝mmseg4j 分詞器

1.下載資料 https://github.com/chenlb/mmseg4j-solr 注意版本： mmseg4j-solr-2.0.0.jar 要求 lucene/solr >= 4.3.0。在 lucene/solr [4.3.0, 4.7.1]

MMSeg4j 分詞器

MMSeg4j用Chih-Hao Tsai 的MMSeg演算法實現的中文分詞器，並實現lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 演算法有兩種分詞方法：Simple和Comple

mmseg4j 中文分詞器的一些簡介整理

在 lucene 中，我們是使用 IndexWriter 呼叫 Analyzer 將文章切成以詞為單位的 Stream，然後生成索引的。lucene 內建的分詞器很多，比如：按空白字元分詞的WhitespaceAnalyzer，添加了stopword過濾的StopAnalyz

Solr6.0.1配置中文分詞器mmseg4j

1、下載mmseg4j包和所需dic檔案 2、配置mmseg4j中文分詞器在solrhome中建立dic資料夾，並將dic欄位檔案複製進去將mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar放到

13.solr學習速成之IK分詞器

更新 api 一個廣泛針對 -i 處理器多個 -1 IKAnalyzer簡介 IKAnalyzer是一個開源的，基於java語言開發的輕量級的中文分詞工具包。 IKAnalyzer特性 a. 算法采用“正向叠代最細粒度切分算法”，支持細粒度和最大詞

IK分詞器安裝

ik分詞器安裝簡介：當前講解的 IK分詞器包的 version 為1.8。一、下載zip包。下面有附件鏈接【ik-安裝包.zip】，下載即可。二、上傳zip包。下載後解壓縮，如下圖。打開修改修改好後打成zip包。# ‘elasticsearch.version‘ version o

ElasticSearch 用ik分詞器建立索引（java API）

tle creat analyzer undefined 全文搜索 () map 多用戶 tcl 　　ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎，基於RESTful web接口。Elasticsearch是用Ja

如何開發自己的搜索帝國之安裝ik分詞器

style utf-8 編碼 ref 文本需要 shell pack 用戶 you 　　 Elasticsearch默認提供的分詞器，會把每個漢字分開，而不是我們想要的根據關鍵詞來分詞，我是中國人不能簡單的分成一個個字，我們更希望 “中國人”，&

Solr6.6.0添加IK中文分詞器

其中開發其余下載鏈接 classes 項目實現 .com 擴展 IK分詞器就是一款中國人開發的，擴展性很好的中文分詞器，它支持擴展詞庫，可以自己定制分詞項，這對中文分詞無疑是友好的。 jar包下載鏈接：http://pan.baidu.com/s/1o85I15o

（五）Lucene——中文分詞器

實現 ext cse ron -a tag 大小 -c .com 1. 什麽是中文分詞器對於英文，是安裝空格、標點符號進行分詞對於中文，應該安裝具體的詞來分，中文分詞就是將詞，切分成一個個有意義的詞。比如：“我的中國人”，分詞：我、的、中

solrcloud配置中文分詞器ik

lte config server field per str load fonts textfield 無論是solr還是luncene,都對中文分詞不太好，所以我們一般索引中文的話需要使用ik中文分詞器。三臺機器（192.168.1.236，192.168.1.237

Elasticsearch入門之從零開始安裝ik分詞器

gpo article terms n) rm -rf 從零開始系列 pack 默認起因需要在ES中使用聚合進行統計分析，但是聚合字段值為中文，ES的默認分詞器對於中文支持非常不友好：會把完整的中文詞語拆分為一系列獨立的漢字進行聚合，顯然這並不是我的初衷。我們來看個

轉：從頭開始編寫基於隱含馬爾可夫模型HMM的中文分詞器

lan reverse single trim 地址 note str rip resources http://blog.csdn.net/guixunlong/article/details/8925990 從頭開始編寫基於隱含馬爾可夫模型HMM的中文分詞器之一 - 資

Solr 配置中文分詞器 IK

host dex text class get mar con png 網址 1. 下載或者編譯 IK 分詞器的 jar 包文件，然後放入 ...\apache-tomcat-8.5.16\webapps\solr\WEB-INF\lib\ 這個 lib 文件目錄下；　

Lucene.net(4.8.0) 學習問題記錄五: JIEba分詞和Lucene的結合，以及對分詞器的思考

+= d+ ext eth reac chart rdl ret start 前言：目前自己在做使用Lucene.net和PanGu分詞實現全文檢索的工作，不過自己是把別人做好的項目進行遷移。因為項目整體要遷移到ASP.NET Core 2.0版本,而Lucene使用的版本

41.分詞器簡單介紹

won 分別是 set round 索引大小 sem arc color 主要知識點 1、什麽是分詞器分詞器就是把一個文檔切分成詞語，也就是es中所做的normalization（提升recall召回率） recall，召回率：搜

62.修改分詞器及手動創建分詞器

round 單詞自己 words 停用默認 htm ext yellow 主要知識點修改分詞器手動創建分詞器一、修改分詞器 1、默認的分詞器standard，主要有以下四個功能 standard tokenizer：以單詞邊界進行切

jieba分詞器

映射 pre ner 搬運工 div 索引 utf 每一個 bsp 始終覺得官方文檔是最好的學習途徑。嗯，我只是一個大自然的搬運工。分詞 jieba.cut 方法接受三個輸入參數: 需要分詞的字符串；cut_all 參數用來控制是否采用全模式；HMM 參數用來控制是

lucene_07_solr使用IK分詞器

分詞 ext rfi 使用 gpo 自定義中文 web pre 使用IKAnalyzer 中文分析器。. 第一步: 把,IKAnalyzer2012FF_u1j 添加到sol/WEB-INF/lib 目錄下。第二步: 復制IKAnalyzer 的配置文件和自定義詞典

MMSeg4j 分詞器

相關推薦