中文分詞工具thulac4j釋出

阿新 • • 發佈：2019-01-18

1. 介紹

thulac4j是THULAC的Java 8工程化實現，具有分詞速度快、準、強的特點；支援

自定義詞典
繁體轉簡體
停用詞過濾

若想在專案中使用thulac4j，可新增依賴：

<dependency>
  <groupId>io.github.yizhiru</groupId>
  <artifactId>thulac4j</artifactId>
  <version>${thulac4j.version}</version>
</dependency>

thulac4j支援中文分詞與詞性標註，使用示例如下：

String sentence = "滔滔的流水，向著波士頓灣無聲逝去";
List<String> words = Segmenter.segment(sentence);
// [滔滔, 的, 流水, ，, 向著, 波士頓灣, 無聲, 逝去]

POSTagger pos = new POSTagger("models/model_c_model.bin", "models/model_c_dat.bin");
List<SegItem> words = pos.tagging(sentence);
// [滔滔/a, 的/u, 流水/n, ，/w, 向著/p, 波士頓灣/ns, 無聲/v, 逝去/v]

模型資料較大，沒有放在jar包與原始碼。訓練模型下載及更多使用說明，請參看Getting Started.

2. 測評

測評主要從效果（準確率、召回率、F1值）、效能方面進行比較，測評結果見wiki。從測評結果看出，thulac4j的兼顧效果與速率。

最後，歡迎大家使用並pull request；中文分詞thulac4j的QQ交流群：373215255。

中文分詞工具thulac4j釋出

1. 介紹 thulac4j是THULAC的Java 8工程化實現，具有分詞速度快、準、強的特點；支援自定義詞典繁體轉簡體停用詞過濾若想在專案中使用thulac4j，可新增依賴： <dependency> <groupId>io.github.yizhiru</g

PyNLPIR python中文分詞工具

命名 hub 兩個工具 ict mage ret wid tty 官網：https://pynlpir.readthedocs.io/en/latest/ github：https://github.com/tsroten/pynlpir NLPIR分詞系

開源中文分詞工具探析（六）：Stanford CoreNLP

inf git deb seq 效果 analysis stream fix sps CoreNLP是由斯坦福大學開源的一套Java NLP工具，提供諸如：詞性標註（part-of-speech (POS) tagger）、命名實體識別（named entity recog

北大開源全新中文分詞工具包：準確率遠超THULAC、結巴分詞

選自GitHub，作者：羅睿軒、許晶晶、孫栩，機器之心編輯。最近，北大開源了一箇中文分詞工具包，它在多個分詞資料集上都有非常高的分詞準確率。其中廣泛使用的結巴分詞誤差率高達 18.55% 和 20.42，而北大的 pkuseg 只有 3.25% 與 4.32%。 pkuseg 是由北京

開源中文分詞工具探析（七）：LTP

LTP是哈工大開源的一套中文語言處理系統，涵蓋了基本功能：分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註、語義依存分析等。【開源中文分詞工具探析】系列： 1. 前言同THULAC一樣，LTP也是基於結構化感知器（Structured Perceptron, SP），以最大熵準則建模標註序列

開源中文分詞工具探析（四）：THULAC

THULAC是一款相當不錯的中文分詞工具，準確率高、分詞速度蠻快的；並且在工程上做了很多優化，比如：用DAT儲存訓練特徵（壓縮訓練模型），加入了標點符號的特徵（提高分詞準確率）等。【開源中文分詞工具探析】系列： 1. 前言 THULAC所採用的分詞模型為結構化感知器（Structured Percep

開源中文分詞工具探析（五）：FNLP

FNLP是由Fudan NLP實驗室的邱錫鵬老師開源的一套Java寫就的中文NLP工具包，提供諸如分詞、詞性標註、文字分類、依存句法分析等功能。【開源中文分詞工具探析】系列： 1. 前言類似於THULAC，FNLP也是採用線性模型（linear model）分詞。較於對數線性模型（log-linea

開源中文分詞工具探析（三）：Ansj

Ansj是由孫健（ansjsun）開源的一箇中文分詞器，為ICTLAS的Java版本，也採用了Bigram + HMM分詞模型（可參考我之前寫的文章）：在Bigram分詞的基礎上，識別未登入詞，以提高分詞準確度。雖然基本分詞原理與ICTLAS的一樣，但是Ansj做了一些工程上的優化，比如：用DAT高效地實現檢

中文分詞工具探析（一）：ICTCLAS (NLPIR)

【開源中文分詞工具探析】系列： 1. 前言 ICTCLAS是張華平老師推出的中文分詞系統，於2009年更名為NLPIR。ICTCLAS是中文分詞界元老級工具了，作者開放出了free版本的原始碼（1.0整理版本在此). 作者在論文[1] 中宣稱ICTCLAS是基於HHMM（Hierarchical Hid

中文分詞工具探析（二）：Jieba

【開源中文分詞工具探析】系列： 1. 前言 Jieba是由fxsjy大神開源的一款中文分詞工具，一款屬於工業界的分詞工具——模型易用簡單、程式碼清晰可讀，推薦有志學習NLP或Python的讀一下原始碼。與採用分詞模型Bigram + HMM 的ICTCLAS 相類似，Jieba採用的是Unigram +

乾貨 | 史上最全中文分詞工具整理

作者 | fendouai 一．中文分詞分詞服務介面列表二．準確率評測： THULAC：與代表性分詞軟體的效能對比我們選擇LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等國內具代表性的分詞軟體與THULAC做效能

中文分詞工具

THULAC 四款python中中文分詞的嘗試。嘗試的有：jieba、SnowNLP（MIT）、pynlpir（大資料搜尋挖掘實驗室（北京市海量語言資訊處理與雲端計算應用工程技術研究中心））、thulac（清華大學自然語言處理與社會人文計算實驗室）四款都

python中文分詞工具：結巴分詞jieba

結巴分詞jieba特點支援三種分詞模式：精確模式，試圖將句子最精確地切開，適合文字分析；全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提

在PyCharm（Python整合開發環境）中安裝jieba中文分詞工具包

PyCharm IDE中，可以直接引入各種工具包。jieba中文分詞工具包安裝非常方便。 1、開啟Pycharm，點選左上角 >>File >>Settings。 2、在settings介面中點選Project :***（專案名稱） >

Java中文分詞工具AnsjSeg使用

中文分詞是進行中文文字分析的一個重要步驟。對於Java語言，有許多可選的分詞工具，如中科院計算所的NLPIR(原ICTCLASS)、盤古分詞、IKAnalyzer、PaodingAnalyzer，其中，試用過ICTCLASS及其後續版本，剛開始感覺不錯，但是Java呼叫C語言的方式實在是受

自然語言處理——中文分詞原理及分詞工具介紹

本文首先介紹下中文分詞的基本原理，然後介紹下國內比較流行的中文分詞工具，如jieba、SnowNLP、THULAC、NLPIR，上述分詞工具都已經在github上開源，後續也會附上github連結，以供參考。 1.中文分詞原理介紹 1.1 中文分詞概述中文分詞(Chinese Word Seg

詳解庖丁解牛中文分詞器工具的使用

今天在網上看了一篇關於中文分詞的文章,有一類是關於基於字串匹配的中文分詞，裡面談到了一個“庖丁解牛分詞器”，於是本人就想嘗試跑跑這個分詞工具。下面是具體的使用步驟： 1. 從網上下載了一個庖丁解牛中文分詞工具壓縮包，放入D:\SoftwarePackage中。解壓D:\

Java分散式中文分片語件word分詞v1.2釋出

word分詞是一個Java實現的分散式的中文分片語件，提供了多種基於詞典的分詞演算法，並利用ngram模型來消除歧義。能準確識別英文、數字，以及日期、時間等數量詞，能識別人名、地名、組織機構名等未登入詞。同時提供了Lucene、Solr、ElasticSearch、Luke外掛。自1.0之後，在1.1和

[python] 使用Jieba工具中文分詞及文字聚類概念

一. Selenium爬取百度百科摘要簡單給出Selenium爬取百度百科5A級景區的程式碼： # coding=utf-8 """ Created on 2015-12-10 @author: Eastmount """ impo

自然語言處理入門（4）——中文分詞原理及分詞工具介紹

本文首先介紹下中文分詞的基本原理，然後介紹下國內比較流行的中文分詞工具，如jieba、SnowNLP、THULAC、NLPIR，上述分詞工具都已經在github上開源，後續也會附上github連結，以供參考。 1.中文分詞原理介紹 1.1 中文分詞概述中

中文分詞工具thulac4j釋出

1. 介紹

2. 測評

相關推薦