幾行Python程式碼幫你生成精美詞雲圖
近年來,網際網路、新媒體等行業報告中經常會看到一些精美的詞雲圖。它的原理其實比較簡單,主要是對文章內容進行分詞,統計各個詞出現的次數,然後根據出現的次數,設定顯示樣式,例如大小、顏色等,從而使讀者快速領略文章的主旨。例如根據某份政府報告生成的詞雲圖如下,可以看出“制度”、“完善”、“健全”、“發展”等詞出現頻率較高。
要想生成精美的詞雲圖,只需幾行Python程式碼即可,關鍵程式碼如下。
如果想要生成符合自己需要的詞雲圖,只需要修改幾個地方即可:首先是text.txt檔案,表示的是文章來源,可以修改為自己的文章,或者將自己文章的內容放在text.txt檔案中;其次是fivestar.png檔案
生成詞雲圖程式碼中呼叫了一些第三方庫,要保證開發環境中已經安裝了相應的庫,否則無法執行。這裡主要涉及到wordcloud庫(用於生成詞雲圖,主要針對英文文章,通過空格進行分詞)和jieba庫(對中文文章進行分詞)。
wordcloud離線安裝過程如下:
jieba庫的線上安裝過程如下:
wordcloud庫中物件建立引數以及常見方法如下:
jieba庫的介紹以及關鍵的方法和引數說明如下:
生成中文詞雲的開發步驟如下:
-
讀取檔案,得到中文字串;
-
藉助jieba庫對中文進行分詞,得到詞語的列表,然後將這些詞進行合併並以空格隔開;
-
開啟最終效果對應的圖片檔案,得到相應的陣列表示;
-
建立WordCloud物件,設定基本資訊;
-
生成詞雲圖,並儲存或顯示。
更多Python學習資源請關注手把手教你學程式設計微信公眾號,我們會不定期更新!