[Python工具]FoolNLTK 中文處理工具包使用教程
阿新 • • 發佈:2018-11-26
FoolNLTK
中文處理工具包
近日 GitHub 使用者 wu.zheng 開源了一個使用雙向 LSTM 構建的中文處理工具包,該工具不僅可以實現分詞、詞性標註和命名實體識別,同時還能使用使用者自定義字典加強分詞的效果。
特點
- 可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞
- 基於BiLSTM模型訓練而成
- 包含分詞,詞性標註,實體識別, 都有比較高的準確率
- 使用者自定義詞典
- 可訓練自己的模型
- 批量處理
定製自己的模型
get clone https://github.com/rockyzhengwu/FoolNLTK.git
cd FoolNLTK/train
詳細訓練步驟可參考文件
僅在linux Python3 環境測試通過
Install
pip install foolnltk
使用說明
分詞
import fool
text = "一個傻子在北京"
print(fool.cut(text))
# ['一個', '傻子', '在', '北京']
命令列分詞, 可指定-b
引數,每次切割的行數能加快分詞速度
python -m fool [filename]
使用者自定義詞典
詞典格式格式如下,詞的權重越高,詞的長度越長就越越可能出現, 權重值請大於1
難受香菇 10 什麼鬼 10 分詞工具 10 北京 10 北京天安門 10
載入詞典
import fool
fool.load_userdict(path)
text = ["我在北京天安門看你難受香菇", "我在北京晒太陽你在非洲看雪"]
print(fool.cut(text))
#[['我', '在', '北京', '天安門', '看', '你', '難受', '香菇'],
# ['我', '在', '北京', '晒太陽', '你', '在', '非洲', '看', '雪']]
刪除詞典
fool.delete_userdict();