中文詞頻統計及詞雲制作
阿新 • • 發佈:2017-09-25
print word 詞雲 出現 不能 分享 item 希望 技術
1.中軟國際華南區技術總監曾老師還會來上兩次課,同學們希望曾老師講些什麽內容?(認真想一想回答)
希望能講一些大數據相關內容,深入了解一下。
2.中文分詞
- 下載一中文長篇小說,並轉換成UTF-8編碼。
- 使用jieba庫,進行中文詞頻統計,輸出TOP20的詞及出現次數。
import jieba ff=open(‘wdqk.txt‘,‘r‘,encoding=‘utf-8‘) wdqk=ff.read() for i in ‘,.""?!,。?!“”\n‘: wdqk=wdqk.replace(i,‘ ‘) wdqk=list(jieba.cut(wdqk)) zd={} paichu
- **排除一些無意義詞、合並同一詞。
- **使用wordcloud庫繪制一個詞雲。
(**兩項選做,此次作業要求不能雷同。)
中文詞頻統計及詞雲制作