1. 程式人生 > >javaNLP-各種Java分詞工具比較

javaNLP-各種Java分詞工具比較

中文分詞器分詞效果評估對比

捐贈致謝

使用說明:

如何建立開發環境?

如果是使用Netbeans、IDEA,則直接開啟專案
如果是使用Eclipse、MyEclipse,則要執行匯入操作
推薦使用IDEA

評估採用的測試文字位於data目錄下,253 3709行,共2837 4490個字元

test-test.txt為未分詞的檔案,一行一個句子或短語,格式如下:

   邁向充滿希望的新世紀
   一九九八年新年講話
   附圖片1張
   中共中央總書記
   國家主席江澤民
   一九九七年十二月三十一日
   12月31日
   總書記
   國家主席江澤民發表1998年新年講話
   新華社記者蘭紅光攝

standard-text.txt為人工分好詞的檔案,用於判斷參與評估的分詞器的分詞結果是否正確,詞和詞之間以空格分隔,格式如下:

   邁向 充滿 希望 的 新 世紀
   一九九八年 新年 講話
   附 圖片 1 張
   中共中央 總書記
   國家 主席 江澤民
   一九九七年 十二月 三十一日
   12月 31日
   總書記
   國家 主席 江澤民 發表 1998年 新年 講話
   新華社 記者 蘭紅光 攝

speed-test-text.txt用於純粹的速度對比

注意:由於每個分詞器的詞典格式不一致,除了詞典之外使用的其他模型的格式也不一致,所以我們評估對比時沒有讓所有分詞器使用統一的詞典和模型,測試的是各個分詞器的預設行為

執行org.apdplat.evaluation.Evaluator類可獲得評估結果

執行org.apdplat.evaluation.WordSegmenter類可對比不同分詞器結果

windows:

   ./contrast.bat
   ./evaluation.bat

linux:

   chmod +x contrast.sh & ./contrast.sh
   chmod +x evaluation.sh & ./evaluation.sh

最終評估結果檔案位於report目錄下:分詞效果評估報告.txt

注意:stanford分詞器是吃記憶體的怪獸,執行的時候需要增加虛擬機器引數 -Xms3000m -Xmx3000m

評估報告:

1、word分詞 最大Ngram分值演算法:
分詞速度:370.9714 字元/毫秒
行數完美率:66.55%  行數錯誤率:33.44%  總的行數:2533709  完美行數:1686210  錯誤行數:847499
字數完美率:60.94% 字數錯誤率:39.05% 總的字數:28374490 完美字數:17293964 錯誤字數:11080526

2、word分詞 最少詞數演算法:
分詞速度:330.1586 字元/毫秒
行數完美率:65.67%  行數錯誤率:34.32%  總的行數:2533709  完美行數:1663958  錯誤行數:869751
字數完美率:60.12% 字數錯誤率:39.87% 總的字數:28374490 完美字數:17059641 錯誤字數:11314849

3、HanLP分詞器 標準分詞:
分詞速度:935.7724 字元/毫秒
行數完美率:58.31%  行數錯誤率:41.68%  總的行數:2533709  完美行數:1477422  錯誤行數:1056287
字數完美率:50.43% 字數錯誤率:49.56% 總的字數:28374490 完美字數:14311008 錯誤字數:14063482

4、word分詞 全切分演算法:
分詞速度:62.960262 字元/毫秒
行數完美率:57.2%  行數錯誤率:42.79%  總的行數:2533709  完美行數:1449288  錯誤行數:1084421
字數完美率:47.95% 字數錯誤率:52.04% 總的字數:28374490 完美字數:13605742 錯誤字數:14768748

5、Ansj BaseAnalysis 基本分詞:
分詞速度:1295.5205 字元/毫秒
行數完美率:55.36%  行數錯誤率:44.63%  總的行數:2533709  完美行數:1402905  錯誤行數:1130804
字數完美率:48.18% 字數錯誤率:51.81% 總的字數:28374490 完美字數:13672441 錯誤字數:14702049

6、smartcn:
分詞速度:611.1504 字元/毫秒
行數完美率:55.29%  行數錯誤率:44.7%  總的行數:2533690  完美行數:1401069  錯誤行數:1132621
字數完美率:48.03% 字數錯誤率:51.96% 總的字數:28374433 完美字數:13628910 錯誤字數:14745523

7、Ansj ToAnalysis 精準分詞:
分詞速度:759.40717 字元/毫秒
行數完美率:54.72%  行數錯誤率:45.27%  總的行數:2533709  完美行數:1386683  錯誤行數:1147026
字數完美率:44.99% 字數錯誤率:55.0% 總的字數:28374490 完美字數:12768426 錯誤字數:15606064

8、HanLP分詞器 極速詞典分詞:
分詞速度:6015.3677 字元/毫秒
行數完美率:54.25%  行數錯誤率:45.74%  總的行數:2533709  完美行數:1374736  錯誤行數:1158973
字數完美率:46.12% 字數錯誤率:53.87% 總的字數:28374490 完美字數:13088320 錯誤字數:15286170

9、word分詞 雙向最大最小匹配演算法:
分詞速度:462.87158 字元/毫秒
行數完美率:53.06%  行數錯誤率:46.93%  總的行數:2533709  完美行數:1344624  錯誤行數:1189085
字數完美率:43.07% 字數錯誤率:56.92% 總的字數:28374490 完美字數:12221610 錯誤字數:16152880

10、HanLP分詞器 N-最短路徑分詞:
分詞速度:77.89775 字元/毫秒
行數完美率:53.01%  行數錯誤率:46.98%  總的行數:2533709  完美行數:1343252  錯誤行數:1190457
字數完美率:44.42% 字數錯誤率:55.57% 總的字數:28374490 完美字數:12604878 錯誤字數:15769612

11、HanLP分詞器 最短路徑分詞:
分詞速度:384.70233 字元/毫秒
行數完美率:52.94%  行數錯誤率:47.05%  總的行數:2533709  完美行數:1341450  錯誤行數:1192259
字數完美率:43.76% 字數錯誤率:56.23% 總的字數:28374490 完美字數:12417741 錯誤字數:15956749

12、Ansj NlpAnalysis NLP分詞:
分詞速度:172.19516 字元/毫秒
行數完美率:52.66%  行數錯誤率:47.33%  總的行數:2533709  完美行數:1334314  錯誤行數:1199395
字數完美率:42.66% 字數錯誤率:57.33% 總的字數:28374490 完美字數:12105808 錯誤字數:16268682

13、HanLP分詞器 NLP分詞:
分詞速度:408.2249 字元/毫秒
行數完美率:52.18%  行數錯誤率:47.81%  總的行數:2533709  完美行數:1322216  錯誤行數:1211493
字數完美率:43.03% 字數錯誤率:56.96% 總的字數:28374490 完美字數:12211399 錯誤字數:16163091

14、FudanNLP:
分詞速度:123.456985 字元/毫秒
行數完美率:51.48%  行數錯誤率:48.51%  總的行數:2533709  完美行數:1304371  錯誤行數:1229338
字數完美率:43.22% 字數錯誤率:56.77% 總的字數:28374490 完美字數:12265742 錯誤字數:16108748

15、Jieba SEARCH:
分詞速度:993.435 字元/毫秒
行數完美率:50.84%  行數錯誤率:49.15%  總的行數:2533709  完美行數:1288237  錯誤行數:1245472
字數完美率:41.54% 字數錯誤率:58.45% 總的字數:28374490 完美字數:11789036 錯誤字數:16585454

16、Jcseg 複雜模式:
分詞速度:561.55975 字元/毫秒
行數完美率:47.96%  行數錯誤率:52.03%  總的行數:2533709  完美行數:1215171  錯誤行數:1318538
字數完美率:38.84% 字數錯誤率:61.15% 總的字數:28374490 完美字數:11021588 錯誤字數:17352902

17、word分詞 雙向最小匹配演算法:
分詞速度:967.68604 字元/毫秒
行數完美率:46.34%  行數錯誤率:53.65%  總的行數:2533709  完美行數:1174276  錯誤行數:1359433
字數完美率:36.07% 字數錯誤率:63.92% 總的字數:28374490 完美字數:10236574 錯誤字數:18137916

18、word分詞 雙向最大匹配演算法:
分詞速度:661.148 字元/毫秒
行數完美率:46.18%  行數錯誤率:53.81%  總的行數:2533709  完美行數:1170075  錯誤行數:1363634
字數完美率:35.65% 字數錯誤率:64.34% 總的字數:28374490 完美字數:10117122 錯誤字數:18257368

19、HanLP分詞器 索引分詞:
分詞速度:942.4862 字元/毫秒
行數完美率:45.44%  行數錯誤率:54.55%  總的行數:2533709  完美行數:1151473  錯誤行數:1382236
字數完美率:35.48% 字數錯誤率:64.51% 總的字數:28374490 完美字數:10068062 錯誤字數:18306428

20、Jcseg 簡易模式:
分詞速度:1193.3085 字元/毫秒
行數完美率:44.59%  行數錯誤率:55.4%  總的行數:2533709  完美行數:1130000  錯誤行數:1403709
字數完美率:35.78% 字數錯誤率:64.21% 總的字數:28374490 完美字數:10155059 錯誤字數:18219431

21、word分詞 正向最大匹配演算法:
分詞速度:1567.1318 字元/毫秒
行數完美率:41.88%  行數錯誤率:58.11%  總的行數:2533709  完美行數:1061189  錯誤行數:1472520
字數完美率:31.35% 字數錯誤率:68.64% 總的字數:28374490 完美字數:8896173 錯誤字數:19478317

22、word分詞 逆向最大匹配演算法:
分詞速度:1232.6017 字元/毫秒
行數完美率:41.69%  行數錯誤率:58.3%  總的行數:2533709  完美行數:1056515  錯誤行數:1477194
字數完美率:30.98% 字數錯誤率:69.01% 總的字數:28374490 完美字數:8792532 錯誤字數:19581958

23、word分詞 逆向最小匹配演算法:
分詞速度:1936.9575 字元/毫秒
行數完美率:41.42%  行數錯誤率:58.57%  總的行數:2533709  完美行數:1049673  錯誤行數:1484036
字數完美率:31.34% 字數錯誤率:68.65% 總的字數:28374490 完美字數:8893622 錯誤字數:19480868

24、Ansj IndexAnalysis 面向索引的分詞:
分詞速度:677.1308 字元/毫秒
行數完美率:40.66%  行數錯誤率:59.33%  總的行數:2533709  完美行數:1030336  錯誤行數:1503373
字數完美率:29.81% 字數錯誤率:70.18% 總的字數:28374490 完美字數:8459997 錯誤字數:19914493

25、MMSeg4j ComplexSeg:
分詞速度:1699.5801 字元/毫秒
行數完美率:38.81%  行數錯誤率:61.18%  總的行數:2533688  完美行數:983517  錯誤行數:1550171
字數完美率:29.6% 字數錯誤率:70.39% 總的字數:28374428 完美字數:8400089 錯誤字數:19974339

26、MMSeg4j SimpleSeg:
分詞速度:2355.5115 字元/毫秒
行數完美率:37.57%  行數錯誤率:62.42%  總的行數:2533688  完美行數:951909  錯誤行數:1581779
字數完美率:28.45% 字數錯誤率:71.54% 總的字數:28374428 完美字數:8074021 錯誤字數:20300407

27、IKAnalyzer 智慧切分:
分詞速度:319.28085 字元/毫秒
行數完美率:37.55%  行數錯誤率:62.44%  總的行數:2533686  完美行數:951638  錯誤行數:1582048
字數完美率:27.97% 字數錯誤率:72.02% 總的字數:28374416 完美字數:7938726 錯誤字數:20435690

28、word分詞 正向最小匹配演算法:
分詞速度:2228.9465 字元/毫秒
行數完美率:36.7%  行數錯誤率:63.29%  總的行數:2533709  完美行數:930069  錯誤行數:1603640
字數完美率:26.72% 字數錯誤率:73.27% 總的字數:28374490 完美字數:7583741 錯誤字數:20790749

29、Jieba INDEX:
分詞速度:861.55615 字元/毫秒
行數完美率:36.02%  行數錯誤率:63.97%  總的行數:2533709  完美行數:912771  錯誤行數:1620938
字數完美率:25.9% 字數錯誤率:74.09% 總的字數:28374490 完美字數:7351689 錯誤字數:21022801

30、MMSeg4j MaxWordSeg:
分詞速度:1737.2491 字元/毫秒
行數完美率:34.27%  行數錯誤率:65.72%  總的行數:2533688  完美行數:868440  錯誤行數:1665248
字數完美率:25.2% 字數錯誤率:74.79% 總的字數:28374428 完美字數:7152898 錯誤字數:21221530

31、IKAnalyzer 細粒度切分:
分詞速度:323.76926 字元/毫秒
行數完美率:18.87%  行數錯誤率:81.12%  總的行數:2533686  完美行數:478176  錯誤行數:2055510
字數完美率:10.93% 字數錯誤率:89.06% 總的字數:28374416 完美字數:3103178 錯誤字數:25271238

評估耗時:41分鐘,42秒,725毫秒

重點說明:
        關於分詞速度,這個不是絕對的,每次測試都會有些差距,而完美率是固定的,所以按行數完美率排名
        上面的評估報告中沒有包括Stanford分詞器和Paoding分詞器
        當前程式碼已經移除了Paoding分詞器,因為Paoding分詞器已經7年沒有維護了
        當前程式碼升級Stanford分詞器到3.5.2,速度慢的無法等待評估完成,僅用於互動式效果對比
        下面是之前程式碼對 Paoding分詞器2.0.4-beta 和 Stanford分詞器 3.3.1 的評估資料

Stanford Beijing University segmentation:
分詞速度:14.4612055 字元/毫秒
行數完美率:58.29%  行數錯誤率:41.7%  總的行數:2533709  完美行數:1477034  錯誤行數:1056675
字數完美率:51.36% 字數錯誤率:48.63% 總的字數:28374490 完美字數:14574120 錯誤字數:13800370

Stanford Chinese Treebank segmentation:
分詞速度:13.723294 字元/毫秒
行數完美率:55.45%  行數錯誤率:44.54%  總的行數:2533709  完美行數:1404968  錯誤行數:1128741
字數完美率:47.27% 字數錯誤率:52.72% 總的字數:28374490 完美字數:13414926 錯誤字數:14959564

Paoding MAX_WORD_LENGTH_MODE:
分詞速度:1343.1075 字元/毫秒
行數完美率:14.19%  行數錯誤率:85.8%  總的行數:2533158  完美行數:359637  錯誤行數:2173521
字數完美率:7.72% 字數錯誤率:92.27% 總的字數:28373102 完美字數:2191349 錯誤字數:26181753

Paoding MOST_WORDS_MODE:
分詞速度:1338.9246 字元/毫秒
行數完美率:11.6%  行數錯誤率:88.39%  總的行數:2533158  完美行數:294011  錯誤行數:2239147
字數完美率:5.92% 字數錯誤率:94.07% 總的字數:28373102 完美字數:1680261 錯誤字數:26692841

效果對比:

1、以 我愛楚離陌 為例子:

word分詞器 的分詞結果:
    1 、【全切分演算法】  我 愛 楚離陌 
    2 、【雙向最大最小匹配演算法】 我 愛 楚離陌 
    3 、【最大Ngram分值演算法】    我 愛 楚離陌 
    4 、【正向最大匹配演算法】   我 愛 楚離陌 
    5 、【雙向最大匹配演算法】   我 愛 楚離陌 
    6 、【最少詞數演算法】 我 愛 楚離陌 
    7 、【逆向最大匹配演算法】   我 愛 楚離陌 
    8 、【正向最小匹配演算法】   我 愛 楚離陌 
    9 、【雙向最小匹配演算法】   我 愛 楚離陌 
    10 、【逆向最小匹配演算法】  我 愛 楚離陌 
Stanford分詞器 的分詞結果:
    1 、【Stanford Chinese Treebank segmentation】 我 愛 楚離陌 
    2 、【Stanford Beijing University segmentation】   我 愛 楚 離陌 
Ansj分詞器 的分詞結果:
    1 、【BaseAnalysis】   我 愛 楚 離 陌 
    2 、【IndexAnalysis】  我 愛 楚 離 陌 
    3 、【ToAnalysis】 我 愛 楚 離 陌 
    4 、【NlpAnalysis】    我 愛 楚離 陌 
HanLP分詞器 的分詞結果:
    1 、【NLP分詞】 我 愛 楚 離 陌 
    2 、【標準分詞】  我 愛 楚 離 陌 
    3 、【N-最短路徑分詞】  我 愛 楚 離 陌 
    4 、【索引分詞】  我 愛 楚 離 陌 
    5 、【最短路徑分詞】    我 愛 楚 離 陌 
    6 、【極速詞典分詞】    我 愛 楚 離 陌 
smartcn分詞器 的分詞結果:
    1 、【smartcn】    我 愛 楚 離 陌 
FudanNLP分詞器 的分詞結果:
    1 、【FudanNLP】   我 愛楚離陌
Jieba分詞器 的分詞結果:
    1 、【SEARCH】 我愛楚 離 陌 
    2 、【INDEX】  我愛楚 離 陌 
Jcseg分詞器 的分詞結果:
    1 、【簡易模式】   我 愛 楚 離 陌 
    2 、【複雜模式】   我 愛 楚 離 陌 
MMSeg4j分詞器 的分詞結果:
    1 、【SimpleSeg】  我愛 楚 離 陌 
    2 、【ComplexSeg】 我愛 楚 離 陌 
    3 、【MaxWordSeg】 我愛 楚 離 陌 
IKAnalyzer分詞器 的分詞結果:
    1 、【智慧切分】   我 愛 楚 離 陌 
    2 、【細粒度切分】  我 愛 楚 離 陌 

2、以 結合成分子 為例子:

word分詞器 的分詞結果:
    1 、【全切分演算法】  結合 成 分子 
    2 、【雙向最大最小匹配演算法】 結 合成 分子 
    3 、【最大Ngram分值演算法】    結合 成 分子 
    4 、【正向最大匹配演算法】   結合 成分 子 
    5 、【雙向最大匹配演算法】   結 合成 分子 
    6 、【最少詞數演算法】 結合 成 分子 
    7 、【逆向最大匹配演算法】   結 合成 分子 
    8 、【正向最小匹配演算法】   結合 成分 子 
    9 、【雙向最小匹配演算法】   結 合成 分子 
    10 、【逆向最小匹配演算法】  結 合成 分子 
Stanford分詞器 的分詞結果:
    1 、【Stanford Chinese Treebank segmentation】 結合 成 分子 
    2 、【Stanford Beijing University segmentation】   結合 成 分子 
Ansj分詞器 的分詞結果:
    1 、【BaseAnalysis】   結合 成 分子 
    2 、【IndexAnalysis】  結合 成 分子 
    3 、【ToAnalysis】 結合 成 分子 
    4 、【NlpAnalysis】    結合 成 分子 
HanLP分詞器 的分詞結果:
    1 、【NLP分詞】  結合 成 分子 
    2 、【標準分詞】   結合 成 分子 
    3 、【N-最短路徑分詞】   結合 成 分子 
    4 、【索引分詞】   結合 成 分子 
    5 、【最短路徑分詞】 結合 成 分子 
    6 、【極速詞典分詞】 結合 成分 子 
smartcn分詞器 的分詞結果:
    1 、【smartcn】    結合 成 分子 
FudanNLP分詞器 的分詞結果:
    1 、【FudanNLP】   結合 成 分子
Jieba分詞器 的分詞結果:
    1 、【SEARCH】 結合 成 分子 
    2 、【INDEX】  結合 成 分子 
Jcseg分詞器 的分詞結果:
    1 、【簡易模式】   結合 成分 子 
    2 、【複雜模式】   結合 成 分子 
MMSeg4j分詞器 的分詞結果:
    1 、【SimpleSeg】  結合 成分 子 
    2 、【ComplexSeg】 結合 成分 子 
    3 、【MaxWordSeg】 結合 成分 子 
IKAnalyzer分詞器 的分詞結果:
    1 、【智慧切分】   結合 成 分子 
    2 、【細粒度切分】  結合 合成 成分 分子

速度對比:

1、HanLP分詞器 極速詞典分詞:
分詞速度:5030.1978 字元/毫秒

2、MMSeg4j MaxWordSeg:
分詞速度:2454.494 字元/毫秒

3、MMSeg4j SimpleSeg:
分詞速度:2184.697 字元/毫秒

4、word分詞 逆向最小匹配演算法:
分詞速度:1407.4127 字元/毫秒

5、word分詞 正向最小匹配演算法:
分詞速度:1234.6848 字元/毫秒

6、MMSeg4j ComplexSeg:
分詞速度:1184.436 字元/毫秒

7、Jcseg 簡易模式:
分詞速度:1023.73364 字元/毫秒

8、Ansj BaseAnalysis 基本分詞:
分詞速度:906.4427 字元/毫秒

9、word分詞 雙向最小匹配演算法:
分詞速度:833.2229 字元/毫秒

10、Jieba SEARCH:
分詞速度:831.52246 字元/毫秒

11、word分詞 逆向最大匹配演算法:
分詞速度:808.4246 字元/毫秒

12、IKAnalyzer 細粒度切分:
分詞速度:735.4621 字元/毫秒

13、HanLP分詞器 索引分詞:
分詞速度:664.67535 字元/毫秒

14、word分詞 正向最大匹配演算法:
分詞速度:573.46375 字元/毫秒

15、word分詞 雙向最大匹配演算法:
分詞速度:539.6636 字元/毫秒

16、Jieba INDEX:
分詞速度:507.40472 字元/毫秒

17、word分詞 雙向最大最小匹配演算法:
分詞速度:505.20273 字元/毫秒

18、IKAnalyzer 智慧切分:
分詞速度:483.90262 字元/毫秒

19、HanLP分詞器 標準分詞:
分詞速度:461.43375 字元/毫秒

20、Ansj IndexAnalysis 面向索引的分詞:
分詞速度:446.76096 字元/毫秒

21、word分詞 最少詞數演算法:
分詞速度:444.56738 字元/毫秒

22、Ansj ToAnalysis 精準分詞:
分詞速度:440.2442 字元/毫秒

23、word分詞 最大Ngram分值演算法:
分詞速度:419.61484 字元/毫秒

24、smartcn:
分詞速度:419.39886 字元/毫秒

25、Jcseg 複雜模式:
分詞速度:391.21075 字元/毫秒

26、HanLP分詞器 最短路徑分詞:
分詞速度:288.55948 字元/毫秒

27、HanLP分詞器 NLP分詞:
分詞速度:251.66522 字元/毫秒

28、Ansj NlpAnalysis NLP分詞:
分詞速度:174.01068 字元/毫秒

29、word分詞 全切分演算法:
分詞速度:146.16898 字元/毫秒

30、FudanNLP:
分詞速度:111.7975 字元/毫秒

31、HanLP分詞器 N-最短路徑分詞:
分詞速度:67.67644 字元/毫秒

支援的分詞器有:

相關推薦

javaNLP-各種Java工具比較

中文分詞器分詞效果評估對比 捐贈致謝 使用說明: 如何建立開發環境? 如果是使用Netbeans、IDEA,則直接開啟專案 如果是使用Eclipse、MyEclipse,則要執行匯入操作 推薦使用IDEA 評估採用的測試文字位於data目

Java工具HanLP

HanLP是由一系列模型與演算法組成的Java工具包,目標是普及自然語言處理在生產環境中的應用。不僅僅是分詞,而是提供詞法分析、句法分析、語義理解等完備的功能。HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。 HanLP完全開源,包括詞典

NLPIR(ICTCLAS2015)工具Java開發簡介

分詞往往是自然語言處理的第一步。在分詞的基礎上,我們可以進行關鍵字的提取、搜尋、糾錯等應用。在理論上,分詞可以採用的方法有很多,最經典的辦法莫過於HMM模型、CRF及其它語言模型如Bigram、Trigram等。NLPIR(又名:ICTCLAS2015)是由中科院張華平博士研發的,基於HMM模型免費

Java中文工具AnsjSeg使用

        中文分詞是進行中文文字分析的一個重要步驟。對於Java語言,有許多可選的分詞工具,如中科院計算所的NLPIR(原ICTCLASS)、盤古分詞、IKAnalyzer、PaodingAnalyzer,其中,試用過ICTCLASS及其後續版本,剛開始感覺不錯,但是Java呼叫C語言的方式實在是受

漢語工具的研發-----

中文 analysis targe item api arc 動手 ica 8.4 當時打醬油做的大創,除了看源代碼之外,什麽數學原理,始終沒有動手實踐過,站在巨人的肩上,就這麽完成了大創。。 想不到時隔兩年還要被迫回來學習,所以呀 出來混 還是要腳踏實地 親力親為

jieba工具的使用

多個 ictclas 基礎上 創新 需要 ica 入參 標註 erb 煩煩煩( ˇ?ˇ ) http://www.oschina.net/p/jieba/ 搬運工。。。。。 jieba "結巴"中文分詞:做最好的Python中文分詞組件 "Jieba"。 Feature

PyNLPIR python中文工具

命名 hub 兩個 工具 ict mage ret wid tty 官網:https://pynlpir.readthedocs.io/en/latest/ github:https://github.com/tsroten/pynlpir NLPIR分詞系

Java 敏感過濾,Java 敏感替換,Java 敏感工具

blog rds log code ima 方法 www enter iteye Java 敏感詞過濾,Java 敏感詞替換,Java 敏感詞工具類 =========================== ?Copyright 蕃薯耀 2017年9月25日 http:

開源中文工具探析(六):Stanford CoreNLP

inf git deb seq 效果 analysis stream fix sps CoreNLP是由斯坦福大學開源的一套Java NLP工具,提供諸如:詞性標註(part-of-speech (POS) tagger)、命名實體識別(named entity recog

IKAnalyzer工具不能處理完所有數據,中途中斷

blank jar 什麽 不知道 arc archive 進行 bubuko image 不知道為什麽,本來1萬條的數據在進行分詞時候,只分了8千就結束了。試了另一批數據2萬條的數據,可以完全分完。 後來把jar包的版本更換掉:將2013版的換成2012_u6版的,就可以正

ElasticSearch最全比較及使用方法

介紹:ElasticSearch 是一個基於 Lucene 的搜尋伺服器。它提供了一個分散式多使用者能力的全文搜尋引擎,基於 RESTful web 介面。Elasticsearch 是用 Java 開發的,並作為Apache許可條款下的開放原始碼釋出,是當前流行的企業級搜尋引擎。設計用於雲端計

自然語言處理——中文原理及工具介紹

本文首先介紹下中文分詞的基本原理,然後介紹下國內比較流行的中文分詞工具,如jieba、SnowNLP、THULAC、NLPIR,上述分詞工具都已經在github上開源,後續也會附上github連結,以供參考。 1.中文分詞原理介紹 1.1 中文分詞概述 中文分詞(Chinese Word Seg

三大工具:standford CoreNLP/中科院NLPIR/哈工大LTP的簡單使用

寫在前面的話:   一個學期下來,發現寫了不少程式碼。但是都沒有好好整理,以後會慢慢整理。第一篇博文,可能也比較雜。望見諒。目的只是為了過段日子再次review時候不至於那麼生疏。如果你能幫一下各位NLPer那真的是我的榮幸。 本文將簡單介紹standford CoreN

jieba工具詞性標記含義

jieba分詞詞性標記含義   jieba為自然語言語言中常用工具包,jieba不僅僅是一個分詞工具,它還具有對分詞的詞性進行標註的功能,詞性類別如下: Ag 形語素 形容詞性語素。形容詞程式碼為 a,語素程式碼g前面置以A

工具的實現

通常,我們在做分詞的時候,需要用到jieba(中文分詞),或直接以空格進行分詞(英文分詞)等,下面會介紹一下一個簡單的中文分詞工具的實現方式。 首先是準備詞庫 我們可以利用清華大學開源詞庫或其他人分享的詞庫等建立分詞詞庫,本篇是拿一個本地檔案舉例建立的詞庫。 import pan

java 工具類+Mybatis攔截SQL實現

轉載!一個比較好的分頁! /**  * 對Page<E>結果進行包裝  * <p/>  * 新增分頁的多項屬性,主要參考:http://bbs.csdn.net/topics/360010907  * @version 3.3.0

NLP——斯坦福工具簡單使用

本例主要演示斯坦福的中文分詞工具包stanford-segmenter.jar 下載地址 解壓後如下: 建立好專案 將data資料夾匯入到專案根目錄下 匯入jar包 SegDemo.java檔案則是

java 工具類 (非常實用的工具類 留用)

import java.util.List; /** * 分頁工具類 * * @author * */ public class PageBean<T> { private List<T> pageData; private Integer cur

java工具

在最近的專案中需要用到分頁,所以自己寫了個分頁工具。 主要的原理就是將資料庫取出的資料儲存到List中,然後以設定的每頁條數進行逐頁處理。 一共分為兩個類,Page類用於儲存頁面資訊,Pagination類用於頁面的操作,例如上一頁、下一頁、跳轉等。 經驗不足,寫的程式碼很

工具介紹

NLPIR 是一套專門針對原始文字集進行處理和加工的軟體,提供了中介軟體處理效果的視覺化展示,也可以作為小規模資料的處理加工工具。使用者可以使用該軟體對自己的資料進行處理。 關鍵詞提取;同時支援使用者詞典。,可以視覺化介面操作和API方式呼叫 採用了層疊隱馬爾可夫模型 全