1. 程式人生 > >中文詞頻統計及詞雲制作

中文詞頻統計及詞雲制作

print word 詞雲 出現 不能 分享 item 希望 技術

1.中軟國際華南區技術總監曾老師還會來上兩次課,同學們希望曾老師講些什麽內容?(認真想一想回答)

希望能講一些大數據相關內容,深入了解一下。

2.中文分詞

  1. 下載一中文長篇小說,並轉換成UTF-8編碼。
  2. 技術分享
  3. 使用jieba庫,進行中文詞頻統計,輸出TOP20的詞及出現次數。
    import jieba
    ff=open(wdqk.txt,r,encoding=utf-8)
    wdqk=ff.read()
    for i in ,.""?!,。?!“”\n:
        wdqk=wdqk.replace(i, )
    wdqk=list(jieba.cut(wdqk))
    zd={}
    paichu
    ={,,,,,,,,,,,, } key=set(wdqk)-paichu for i in key: zd[i]=wdqk.count(i) lb=list(zd.items()) lb.sort(key=lambda x:x[1],reverse=True) print(頻率最高top10:\n) for i in range(10): print(lb[i]) ff.close()

    技術分享

  4. **排除一些無意義詞、合並同一詞。
  5. **使用wordcloud庫繪制一個詞雲。

(**兩項選做,此次作業要求不能雷同。)

中文詞頻統計及詞雲制作