1. 程式人生 > >python中jieba庫篩選高頻詞語

python中jieba庫篩選高頻詞語

安裝jieba庫
pip install jieba
如果失敗提示許可權問題輸入:sudo su

#-*-coding:UTF-8-*-
import json
import  jieba

txt = open("data.txt", "r").read()
words = jieba.lcut(txt)     # 使用精確模式對文字進行分詞
counts = {}     # 通過鍵值對的形式儲存詞語及其出現的次數

for word in words:
    if  len(word) == 1:    # 單個詞語不計算在內
        continue
    else:
        counts[word] = counts.get(word, 0) + 1    # 遍歷所有詞語,每出現一次其對應的值加 1
        
items = list(counts.items())#將鍵值對轉換成列表
items.sort(key=lambda x: x[1], reverse=True)    # 根據詞語出現的次數進行從大到小排序
ite=json.dumps(items,ensure_ascii=False)
print ite
for i in range(15):
    word, count = items[i]
    print word, count

轉載地址:https://www.cnblogs.com/wkfvawl/p/9487165.html