1. 程式人生 > >[Python工具]FoolNLTK 中文處理工具包使用教程

[Python工具]FoolNLTK 中文處理工具包使用教程

FoolNLTK

中文處理工具包

近日 GitHub 使用者 wu.zheng 開源了一個使用雙向 LSTM 構建的中文處理工具包,該工具不僅可以實現分詞、詞性標註和命名實體識別,同時還能使用使用者自定義字典加強分詞的效果。

特點

  • 可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞
  • 基於BiLSTM模型訓練而成
  • 包含分詞,詞性標註,實體識別, 都有比較高的準確率
  • 使用者自定義詞典
  • 可訓練自己的模型
  • 批量處理

定製自己的模型

get clone https://github.com/rockyzhengwu/FoolNLTK.git
cd
FoolNLTK/train

詳細訓練步驟可參考文件

僅在linux Python3 環境測試通過

Install

pip install foolnltk

使用說明

分詞
import fool

text = "一個傻子在北京"
print(fool.cut(text))
# ['一個', '傻子', '在', '北京']

命令列分詞, 可指定-b引數,每次切割的行數能加快分詞速度

python -m fool [filename]
使用者自定義詞典

詞典格式格式如下,詞的權重越高,詞的長度越長就越越可能出現, 權重值請大於1

難受香菇 10
什麼鬼 10
分詞工具 10
北京 10
北京天安門 10

載入詞典

import fool
fool.load_userdict(path)
text = ["我在北京天安門看你難受香菇", "我在北京晒太陽你在非洲看雪"]
print(fool.cut(text))
#[['我', '在', '北京', '天安門', '看', '你', '難受', '香菇'],
# ['我', '在', '北京', '晒太陽', '你', '在', '非洲', '看', '雪']]

刪除詞典

fool.delete_userdict();

開源地址:
https://github.com/rockyzhengwu/FoolNLTK