1. 程式人生 > >中文詞頻統計

中文詞頻統計

item 輸出 lis text 詞頻 ima {} set img

  1. 下載一中文長篇小說,並轉換成UTF-8編碼。
  2. 使用jieba庫,進行中文詞頻統計,輸出TOP20的詞及出現次數。
  3. 排除一些無意義詞、合並同一詞。
  4. 對詞頻統計結果做簡單的解讀。
    import jieba
    q=open(阿Q正傳.txt,r,encoding=utf-8).read()
    q=list(jieba.cut_for_search(q))
    
    zex={,,!}
    
    dic={}
    keys=set(q)-zex#鍵的集合
    
    for i in keys:
        if len(i)>1:
            dic[i]= q.count(i)#單詞計數
    q=list(dic.items())#
    字典轉換成列表,由元組組成 q.sort(key=lambda x:x[1],reverse=True)#排序 for i in range(20): print(q[i])
    技術分享

  5. 解讀:阿Q是一個生活在革命年代的人。

中文詞頻統計