python中jieba庫篩選高頻詞語
阿新 • • 發佈:2019-01-11
安裝jieba庫
pip install jieba
如果失敗提示許可權問題輸入:sudo su
#-*-coding:UTF-8-*- import json import jieba txt = open("data.txt", "r").read() words = jieba.lcut(txt) # 使用精確模式對文字進行分詞 counts = {} # 通過鍵值對的形式儲存詞語及其出現的次數 for word in words: if len(word) == 1: # 單個詞語不計算在內 continue else: counts[word] = counts.get(word, 0) + 1 # 遍歷所有詞語,每出現一次其對應的值加 1 items = list(counts.items())#將鍵值對轉換成列表 items.sort(key=lambda x: x[1], reverse=True) # 根據詞語出現的次數進行從大到小排序 ite=json.dumps(items,ensure_ascii=False) print ite for i in range(15): word, count = items[i] print word, count