1. 程式人生 > 實用技巧 >幾行Python程式碼幫你生成精美詞雲圖

幾行Python程式碼幫你生成精美詞雲圖

近年來,網際網路、新媒體等行業報告中經常會看到一些精美的詞雲圖。它的原理其實比較簡單,主要是對文章內容進行分詞,統計各個詞出現的次數,然後根據出現的次數,設定顯示樣式,例如大小、顏色等,從而使讀者快速領略文章的主旨。例如根據某份政府報告生成的詞雲圖如下,可以看出“制度”、“完善”、“健全”、“發展”等詞出現頻率較高。

要想生成精美的詞雲圖,只需幾行Python程式碼即可,關鍵程式碼如下。

如果想要生成符合自己需要的詞雲圖,只需要修改幾個地方即可:首先是text.txt檔案,表示的是文章來源,可以修改為自己的文章,或者將自己文章的內容放在text.txt檔案中;其次是fivestar.png檔案

,表示生成的詞雲圖的效果,預設是一個矩形,可以根據自己的需要設定成相應的形狀,例如五角星、黨旗等,只需要找到對應效果的圖片即可。(相關資源可關注微信公眾號:手把手教你學程式設計,回覆wordcloud即可獲取)

生成詞雲圖程式碼中呼叫了一些第三方庫,要保證開發環境中已經安裝了相應的庫,否則無法執行。這裡主要涉及到wordcloud庫(用於生成詞雲圖,主要針對英文文章,通過空格進行分詞)和jieba庫對中文文章進行分詞)。

wordcloud離線安裝過程如下:

jieba庫的線上安裝過程如下:

wordcloud庫中物件建立引數以及常見方法如下:

jieba庫的介紹以及關鍵的方法和引數說明如下:

生成中文詞雲的開發步驟如下:

  • 讀取檔案,得到中文字串

  • 藉助jieba庫對中文進行分詞,得到詞語的列表,然後將這些詞進行合併並以空格隔開

  • 開啟最終效果對應的圖片檔案,得到相應的陣列表示;

  • 建立WordCloud物件,設定基本資訊;

  • 生成詞雲圖,並儲存或顯示。

更多Python學習資源請關注手把手教你學程式設計微信公眾號,我們會不定期更新!