Ansj分詞教程步驟
阿新 • • 發佈:2018-12-17
摘要: ansj是一個基於n-Gram+CRF+HMM的中文分詞的java實現. ansj分詞速度達到每秒鐘大約200萬字左右(mac air下測試),準確率能達到96%以上 Ansj目前實現了.中文分詞.詞性識別. 中文姓名識別 . 使用者自定義詞典,關鍵字提取,自動摘要,關鍵字標記等功能 可以應用到自然語言處理等方面,適用於對分詞效果要求高的各種專案.下載jar: 訪問 http://maven.nlpcn.org/org/ansj/ 最好下載最新版 ansj_seg/ 如果你用的是1.x版本需要下載tree_split.jar。 如果你用的是2.x版本需要下載nlp-lang.jar。 如果你用的是3.x以上版本只需要下載 ansj_seg-[version]-all-in-one.jar 一個jar包就能浪了。
本人使用的是ansj5.0.1版本,使用的scala呼叫的,呼叫方式與java基本一樣
原始碼:https://github.com/NLPchina/ansj_seg
使用: 分詞方式: 基本分詞:最基本的分詞.詞語顆粒度最非常小的 使用者自定義詞典Χ數字識別√人名識別Χ機構名識別Χ新詞發現Χ val parse = BaseAnalysis.parse("孫楊在里約奧運會男子200米自由泳決賽中,以1分44秒65奪得冠軍"); System.out.println(parse); result:[孫/nr,楊/nr,在/p,裡/f,約/d,奧運會/j,男子/n,200/m,米/q,自由泳/n,決賽/vn,中/f,,/w,以/p,1/m,分/q,44/m,秒/q,65/m,奪得/v,冠軍/n] 精準分詞:在易用性,穩定性.準確性.以及分詞效率上.都取得了一個不錯的平衡. 使用者自定義詞典√數字識別√人名識別√機構名識別Χ新詞發現Χ val parse = ToAnalysis.parse("孫楊在里約奧運會男子200米自由泳決賽中,以1分44秒65奪得冠軍"); System.out.println(parse); result:[孫楊/nr,在/p,裡/f,約/d,奧運會/j,男子/n,200米/m,自由泳/n,決賽/vn,中/f,,/w,以/p,1分/m,44秒/m,65/m,奪得/v,冠軍/n] nlp分詞:語法實體名抽取.未登入詞整理.只要是對文字進行發現分析等工作 使用者自定義詞典√數字識別 √