【python資料處理】jieba分詞
阿新 • • 發佈:2018-12-14
jieba(結巴)是一個強大的分詞庫,完美支援中文分詞
三種分詞模式
import jieba s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。' cut = jieba.cut(s) #三種模式 print( '【Output】精確模式:') print (cut) print ('/'.join(cut)) print( '【Output】全模式:') print ('/'.join(jieba.cut(s,cut_all = True))) print( '【Output】搜尋引擎模式:') print('/'.join(jieba.cut_for_search(s)))
結果
詞性分析
import jieba
import jieba.posseg as psg
s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。'
cut = jieba.cut(s)
print ('【Output】')
for x in psg.cut(s):
if (x.flag.startswith('n')):
print([x.word,x.flag])
結果
高頻詞統計
由於不給條件會把 的 吧 這種無意義的詞選入 所以給了一個限制len(x)>=2
import jieba import jieba.posseg as psg from collections import Counter s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。' cut = jieba.cut(s) santi_text = open('st.txt',encoding='utf-8').read() santi_words = [x for x in jieba.cut(santi_text) if len(x) >= 2] jieba.disable_parallel() c = Counter(santi_words).most_common(20) print (c)