Python的jieba模塊簡介
阿新 • • 發佈:2018-10-13
分詞 txt img pri class port 清華大學 pan sse
現如今,詞雲技術遍地都是,分詞模塊除了jieba也有很多,主要介紹一下jieba的基本使用
import jieba import jieba.posseg as psg from os import path from collections import Counter s=u‘我想和女朋友一起去北京天安門閑逛。。‘ cut = jieba.cut(s) print(‘精確模式‘) print(cut) print(‘,‘.join(cut)) print (‘全模式‘) print(‘,‘.join(jieba.cut(s,cut_all = True))) print(‘搜索引擎模式‘) print(‘,‘.join(jieba.cut_for_search(s))) print(‘詞性‘) print([(x.word,x.flag) for x in psg.cut(s)]) print([(x.word,x.flag) for x in psg.cut(s) if x.flag.startswith(‘n‘)]) print(‘--*--‘*10) seg_list = jieba.cut("我來到北京清華大學", cut_all=True) print("Full Mode:", "/ ".join(seg_list)) # 全模式 seg_list = jieba.cut("我來到北京清華大學", cut_all=False) print("Default Mode:", "/ ".join(seg_list)) # 精確模式 seg_list = jieba.cut("他來到了網易杭研大廈") # 默認是精確模式 print(", ".join(seg_list)) seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") # 搜索引擎模式 print(", ".join(seg_list)) d=path.dirname(__file__) sanguo_text=open(path.join(d,"data//sanguo.txt"),encoding=‘utf-8‘).read() print(len(sanguo_text)) sanguo_words = [x for x in jieba.cut(sanguo_text) if len(x) >= 2] c = Counter(sanguo_words).most_common(20) print(c)
運行結果
其中精確模式比較好用,全模式就是盡量將所有的詞拿出來
Python的jieba模塊簡介