1. 程式人生 > 程式設計 >Python實現Wordcloud生成詞雲圖的示例

Python實現Wordcloud生成詞雲圖的示例

wordcloud是Python擴充套件庫中一種將詞語用圖片表達出來的一種形式,通過詞雲生成的圖片,我們可以更加直觀的看出某篇文章的故事梗概。

首先貼出一張詞雲圖(以哈利波特小說為例):

Python實現Wordcloud生成詞雲圖的示例

在生成詞雲圖之前,首先要做一些準備工作

1.安裝結巴分詞庫

pip install jieba

Python實現Wordcloud生成詞雲圖的示例

Python中的分詞模組有很多,他們的功能也都是大同小異,我們安裝的結巴分詞是當前使用的最多的型別。

下面我來簡單介紹一下結巴分詞的用法

結巴分詞的分詞模式分為三種:

(1)全模式:把句子中所有的可以成詞的詞語都掃描出來,速度快,但是不能解決歧義問題

(2)精確模式:將句子最精確地切開,適合文字分析

(3)搜尋引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞

下面用一個簡單的例子來看一下三種模式的分詞區別:

import jieba
 
 # 全模式:把句子中所有的可以成詞的詞語都掃描出來,但是不能解決歧義問題
 text = "哈利波特是一常優秀的文學作品"
 seg_list = jieba.cut(text,cut_all=True)
 print(u"[全模式]: ","/ ".join(seg_list))
 
 # 精確模式:將句子最精確地切開,適合文字分析
 seg_list = jieba.cut(text,cut_all=False)
 print(u"[精確模式]: ","/ ".join(seg_list))
 
 # 預設是精確模式
 seg_list = jieba.cut(text)
 print(u"[預設模式]: ","/ ".join(seg_list))
 
 # 搜尋引擎模式:在精確模式的基礎上,適合用於搜尋引擎分詞
seg_list = jieba.cut_for_search(text)
print(u"[搜尋引擎模式]: ","/ ".join(seg_list))

下面是對這句話的分詞方式:

Python實現Wordcloud生成詞雲圖的示例

通過這三種分詞模式可以看出,這些分詞模式並沒有很好的劃分出“哈利波特”這個專有名詞,這是因為在結巴分詞的字典中並沒有記錄這個名詞,所以需要我們手動新增自定義字典

新增自定義字典:找一個方便引用的位置 (下圖的路徑是我安裝的位置),新建文字文件(字尾名為.txt),將想新增的詞輸入進去(注意輸入格式),儲存並退出

Python實現Wordcloud生成詞雲圖的示例

在上面的程式碼中加入自定義字典的路徑,再點選執行

jieba.load_userdict("/home/jmhao/anaconda3/lib/python3.7/site-packages/jieba/mydict.txt")

分詞結果,可以看出“哈利波特”這個詞已經被識別出來了

Python實現Wordcloud生成詞雲圖的示例

結巴分詞還有另一個禁用詞的輸出結果

 stopwords = {}.fromkeys(['優秀','文學作品'])
 
 #新增禁用詞之後
 seg_list = jieba.cut(text)
 final = ''
 for seg in seg_list:
   if seg not in stopwords:
       final += seg
 seg_list_new = jieba.cut(final)
 print(u"[切割之後]: ","/ ".join(seg_list_new))

可以看到輸出結果中並沒有“優秀”和“文學作品”兩個詞

Python實現Wordcloud生成詞雲圖的示例

結巴分詞還有很多比較複雜的操作,具體的可以去官網檢視,我就不再過多的贅述了

下面我們正式開始詞雲的製作

首先下載模組,這裡我所使用的環境是Anaconda,由於Anaconda中包含很多常用的擴充套件包,所以這裡只需要下載wordcloud。若使用的環境不是Anaconda,則另需安裝numpy和PIL模組

pip install wordcloud

Python實現Wordcloud生成詞雲圖的示例

然後我們需要找一篇文章並使用結巴分詞將文章分成詞語的形式

# 分詞模組
 def cut(text):
   # 選擇分詞模式
   word_list = jieba.cut(text,cut_all= True)
   # 分詞後在單獨個體之間加上空格
   result = " ".join(word_list)
   # 返回分詞結果
   return result

這裡我在當前資料夾下建立了一個文字文件“xiaoshuo.txt”,並複製了一章的小說作為詞雲的主體文字

使用程式碼控制,開啟並讀取小說的內容

 #匯入文字檔案,進行分詞,製作詞雲
 with open("xiaoshuo.txt") as fp:
   text = fp.read()
   # 將讀取的中文文件進行分詞
   text = cut(text)

在網上找到一張白色背景的圖片下載到當前資料夾,作為詞雲的背景圖(若不指定圖片,則預設生成矩形詞雲)

#設定詞雲形狀,若設定了詞雲的形狀,生成的詞雲與圖片保持一致,後面設定的寬度和高度將預設無效
  mask = np.array(image.open("monkey.jpeg"))

接下來可以根據喜好來定義詞雲的顏色、輪廓等引數 下面為常用的引數設定方法

font_path : "字型路徑" 詞雲的字型樣式,若要輸出中文,則跟隨中文的字型
width = n 畫布寬度,預設為400畫素
height =n 畫布高度,預設為400畫素
scale = n 按比例放大或縮小畫布
min_font_size = n 設定最小的字型大小
max_font_size = n 設定最大的字型大小
stopwords = 'words' 設定要遮蔽的詞語
background_color = ''color 設定背景板顏色
relative_scaling = n 設定字型大小與詞頻的關聯性
contour_width = n 設定輪廓寬度
contour_color = 'color' 設定輪廓顏色

完整程式碼

#匯入詞雲庫
 from wordcloud import WordCloud
 #匯入影象處理庫
 import PIL.Image as image
 #匯入資料處理庫
 import numpy as np
 #匯入結巴分詞庫
 import jieba
 
 # 分詞模組
 def cut(text):
   # 選擇分詞模式
   word_list = jieba.cut(text,cut_all= True)
   # 分詞後在單獨個體之間加上空格
   result = " ".join(word_list)
   return result
 
 #匯入文字檔案,製作詞雲
 with open("xiaoshuo.txt") as fp:
   text = fp.read()
   # 將讀取的中文文件進行分詞
   text = cut(text)
   #設定詞雲形狀
   mask = np.array(image.open("monkey.jpeg"))
   #自定義詞雲
   wordcloud = WordCloud(
     # 遮罩層,除白色背景外,其餘圖層全部繪製(之前設定的寬高無效)
     mask=mask,#預設黑色背景,更改為白色
     background_color='#FFFFFF',#按照比例擴大或縮小畫布
     scale=,# 若想生成中文字型,需新增中文字型路徑
     font_path="/usr/share/fonts/bb5828/逐浪雅宋體.otf"
   ).generate(text)
   #返回物件
   image_produce = wordcloud.to_image()
   #儲存圖片
   wordcloud.to_file("new_wordcloud.jpg")
   #顯示影象
   image_produce.show()

注:若想要生成圖片樣式的詞雲圖,找到的圖片背景必須為白色,或者使用Photoshop摳圖替換成白色背景,否則生成的詞云為矩形

我的詞雲原圖:

Python實現Wordcloud生成詞雲圖的示例

生成的詞雲圖:

Python實現Wordcloud生成詞雲圖的示例

到此這篇關於Python實現Wordcloud生成詞雲圖的示例的文章就介紹到這了,更多相關Python Wordcloud生成詞雲圖內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!