中文分詞 jieba和HanLP
阿新 • • 發佈:2018-11-30
安裝python包:
pip install nltk
pip install jieba
pip install pyhanlp
pip install gensim
使用jieba進行分詞
import jieba content = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在圖片處理、語音識別領域取得巨大成功。" # cut_all 引數用來控制是否採用全模式 segs_1 = jieba.cut(content, cut_all=False) print("/".join(segs_1)) segs_3 = jieba.cut(content, cut_all=True) print("/".join(segs_3)) segs_4 = jieba.cut_for_search(content) # 預設不使用 HMM 模型 print("/".join(segs_4)) segs_5 = jieba.lcut(content) print(segs_5) # 獲取詞性 import jieba.posseg as psg print([(x.word,x.flag) for x in psg.lcut(content)]) # 獲取分詞結果中詞列表的 top n from collections import Counter top5= Counter(segs_5).most_common(5) print(top5) txt = "鐵甲網是中國最大的工程機械交易平臺。" print(jieba.lcut(txt)) jieba.add_word("鐵甲網") # jieba.load_userdict('user_dict.txt') print(jieba.lcut(txt))
結果為:
[‘鐵甲網’, ‘是’, ‘中國’, ‘最大’, ‘的’, ‘工程機械’, ‘交易平臺’, ‘。’]
使用pyhanlp進行分詞
from pyhanlp import * content = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在圖片處理、語音識別領域取得巨大成功。" print(HanLP.segment(content)) txt = "鐵甲網是中國最大的工程機械交易平臺。" print(HanLP.segment(txt)) CustomDictionary.add("鐵甲網") CustomDictionary.insert("工程機械", "nz 1024") CustomDictionary.add("交易平臺", "nz 1024 n 1") print(HanLP.segment(txt))
結果為:
[鐵甲網/nz, 是/vshi, 中國/ns, 最大/gm, 的/ude1, 工程機械/nz, 交易平臺/nz, 。/w]