結巴分詞(JAVA版)
阿新 • • 發佈:2019-02-07
引用
<dependency>
<groupId>com.huaban</groupId>
<artifactId>jieba-analysis</artifactId>
<version>1.0.2</version>
</dependency>
如何使用
@Test
public void testDemo() {
JiebaSegmenter segmenter = new JiebaSegmenter();
String[] sentences =
new String[] {"這是一個伸手不見五指的黑夜。我叫孫悟空,我愛北京,我愛Python和C++。", "我不喜歡日本和服。", "雷猴迴歸人間。",
"工信處女幹事每月經過下屬科室都要親口交代24口交換機等技術性器件的安裝工作", "結果婚的和尚未結過婚的"};
for (String sentence : sentences) {
System.out.println(segmenter.process(sentence, SegMode.INDEX).toString());
}
}
效能評估
- 測試機配置
Processor 2 Intel(R) Pentium(R) CPU G620 @ 2.60GHz
Memory:8GB
分詞測試時機器開了許多應用(eclipse、emacs、chrome...),可能
會影響到測試速度
- 測試結果(單執行緒,對測試文字逐行分詞,並迴圈呼叫上萬次)
迴圈呼叫一萬次
第一次測試結果:
time elapsed:12373, rate:2486.986533kb/s, words:917319.94/s
第二次測試結果:
time elapsed:12284, rate:2505.005241kb/s, words:923966.10/s
第三次測試結果:
time elapsed:12336, rate:2494.445880kb/s, words:920071.30/s
迴圈呼叫2萬次
第一次測試結果:
time elapsed:22237, rate:2767.593144kb/s, words:1020821.12/s
第二次測試結果:
time elapsed:22435, rate:2743.167762kb/s, words:1011811.87/s
第三次測試結果:
time elapsed:22102, rate:2784.497726kb/s, words:1027056.34/s
統計結果:詞典載入時間1.8s左右,分詞效率每秒2Mb多,近100萬詞。
2 Processor Intel(R) Core(TM) i3-2100 CPU @ 3.10GHz
12G 測試效果
time elapsed:19597, rate:3140.428063kb/s, words:1158340.52/s
time elapsed:20122, rate:3058.491639kb/s, words:1128118.44/s