1. 程式人生 > >結巴分詞(JAVA版)

結巴分詞(JAVA版)

引用

<dependency>
  <groupId>com.huaban</groupId>
  <artifactId>jieba-analysis</artifactId>
  <version>1.0.2</version>
</dependency>

如何使用

@Test
public void testDemo() {
    JiebaSegmenter segmenter = new JiebaSegmenter();
    String[] sentences =
        new
String[] {"這是一個伸手不見五指的黑夜。我叫孫悟空,我愛北京,我愛Python和C++。", "我不喜歡日本和服。", "雷猴迴歸人間。", "工信處女幹事每月經過下屬科室都要親口交代24口交換機等技術性器件的安裝工作", "結果婚的和尚未結過婚的"}; for (String sentence : sentences) { System.out.println(segmenter.process(sentence, SegMode.INDEX).toString()); } }

效能評估

  • 測試機配置
Processor 2 Intel(R) Pentium(R) CPU G620 @ 2.60GHz
Memory8GB

分詞測試時機器開了許多應用(eclipse、emacs、chrome...),可能
會影響到測試速度
  • 測試結果(單執行緒,對測試文字逐行分詞,並迴圈呼叫上萬次)
迴圈呼叫一萬次
第一次測試結果:
time elapsed:12373, rate:2486.986533kb/s, words:917319.94/s
第二次測試結果:
time elapsed:12284, rate:2505.005241kb/s, words:923966.10/s
第三次測試結果:
time
elapsed:12336, rate:2494.445880kb/s, words:920071.30/s 迴圈呼叫2萬次 第一次測試結果: time elapsed:22237, rate:2767.593144kb/s, words:1020821.12/s 第二次測試結果: time elapsed:22435, rate:2743.167762kb/s, words:1011811.87/s 第三次測試結果: time elapsed:22102, rate:2784.497726kb/s, words:1027056.34/s 統計結果:詞典載入時間1.8s左右,分詞效率每秒2Mb多,近100萬詞。 2 Processor Intel(R) Core(TM) i3-2100 CPU @ 3.10GHz 12G 測試效果 time elapsed:19597, rate:3140.428063kb/s, words:1158340.52/s time elapsed:20122, rate:3058.491639kb/s, words:1128118.44/s