python詞雲庫wordCloud使用方法詳解(解決中文亂碼)

阿新 • • 發佈：2020-02-18

文章中的例子主要借鑑wordColud的examples，在文章對examples中的例子做了一些改動。

一、wordColud設計中文詞雲亂碼

使用wordColud設計詞雲的時候可能會產生亂碼問題，因為wordColud預設的字型不支援中文，所以我們只需要替換wordColud的預設字型即可正常顯示中文。

1、中文詞雲亂碼

我們使用simhei(黑體)來替換wordColud的預設字型。

2、替換預設字型

a、在字型檔案*.tff字型檔案(simhei.tff)拷貝到wordColud安裝的資料夾中，資料夾路徑：anaconda(python)-->lib-->site-packages-->wordcolud，如下圖：

python詞雲庫wordCloud使用方法詳解(解決中文亂碼)

其中矩形框出來的是wordColud預設的字型，橢圓形框的是我們下載的字型。

b、修改wordcolud.py檔案中的字型設定，開啟改路徑下的wordcolud.py檔案，找到下圖的所示的框出來的這一行(29行)

將系統的DroidSansMono.tff修改為simhei.tff即可。

python詞雲庫wordCloud使用方法詳解(解決中文亂碼)

二、wordColud示例

1、設計一個簡單的圓形詞雲

import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud,STOPWORDS
from PIL import Image
from os import path
import matplotlib.pyplot as plt
#用來正常顯示中文
plt.rcParams["font.sans-serif"]=["SimHei"]
#用來正常顯示負號
plt.rcParams["axes.unicode_minus"]=False
import os
import random,jieba
 
'''
繪製單個詞一個圓形的詞雲
'''
def single_wordColud():
  text = "第一 第二 第三 第四"
  #產生一個以(150,150)為圓心,半徑為130的圓形mask
  x,y = np.ogrid[:300,:300]
  mask = (x-150) ** 2 + (y-150) ** 2 > 130 ** 2
  mask = 255 * mask.astype(int)
  wc = WordCloud(background_color="white",repeat=True,mask=mask)
  wc.generate(text)
 
  #將x軸和y軸座標隱藏
  plt.axis("off")
  plt.imshow(wc,interpolation="bilinear")
  plt.show()

python詞雲庫wordCloud使用方法詳解(解決中文亂碼)

2、以圖片形狀作為背景設計詞雲

python詞雲庫wordCloud使用方法詳解(解決中文亂碼)

下面以蠟筆小新的這張圖片作為背景來設計一個詞雲，我們通過讀取一個txt檔案，檔案中包含了很多段落，然後通過jieba對句子進行分詞，去除停用詞之後，生成一張詞雲的照片。

a、讀取檔案內容

使用jieba分詞後，詞之間需要通過空格進行分割，不然在產生詞雲的時候回變成一個詞。

'''
中文分詞
'''
def segment_words(text):
  article_contents = ""
  #使用jieba進行分詞
  words = jieba.cut(text,cut_all=False)
  for word in words:
    #使用空格來分割詞
    article_contents += word+" "
  return article_contents

b、讀取停用詞

停用詞包括一些標點符號，和一些沒有實際意義的詞，我們需要將這些詞都去除。

'''
從檔案中讀取停用詞
'''
def get_stopwords():
  dir_path = path.dirname(__file__) if "__file__" in locals() else os.getcwd()
  #獲取停用詞的路徑
  stopwords_path = os.path.join(dir_path,"txt/stopwords.txt")
  #建立set集合來儲存停用詞
  stopwords = set()
  #讀取檔案
  f = open(stopwords_path,"r",encoding="utf-8")
  line_contents = f.readline()
  while line_contents:
    #去掉回車
    line_contents = line_contents.replace("\n","").replace("\t","").replace("\u3000","")
    stopwords.add(line_contents)
    line_contents = f.readline()
  return stopwords

c、生成詞雲圖片

def drow_mask_wordColud():
  #獲取當前檔案的父目錄
  d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()
  mask = np.array(Image.open(path.join(d,"img/test.jpg")))
  text = open(path.join(d,"txt/test.txt"),encoding="utf-8").read().
      replace("\n","")
  #對文字進行分詞
  text = segment_words(text)
  #獲取停用詞
  stopwords = get_stopwords()
  #建立詞雲
  '''
  max_words:顯示詞的數量
  mask:背景
  stopwords:停用詞,是一個set集合
  margin:詞之間的間隔
  background_color:詞雲圖片背景顏色
  '''
  wc = WordCloud(max_words=100,mask=mask,background_color="white",stopwords=stopwords,margin=10,random_state=1).generate(text)
  default_colors = wc.to_array()
  # #儲存詞雲圖片
  # wc.to_file("a_new_hope.png")
  plt.imshow(default_colors,interpolation="bilinear")
  plt.axis("off")
  plt.show()

python詞雲庫wordCloud使用方法詳解(解決中文亂碼)

3、自定義詞雲的顏色

from wordcloud import WordCloud,get_single_color_func
import matplotlib.pyplot as plt
 
'''
定義一個字型顏色設定類
'''
class GroupedColorFunc(object):
  def __init__(self,color_to_words,default_color):
    self.color_func_to_words=[
      (get_single_color_func(color),set(words))
      for (color,words) in color_to_words.items()
    ]
    self.defalt_color_func=get_single_color_func(default_color)
  def get_color_func(self,word):
    try:
      #設定每個詞的顏色
      color_func = next(color_func for (color_func,words) in self.color_func_to_words
               if word in words)
    except StopIteration:
      #詞的預設顏色
      color_func = self.defalt_color_func
    return color_func
  def __call__(self,word,**kwargs):
    return self.get_color_func(word)(word,**kwargs)
 
 
if __name__ == "__main__":
  text = "第一 第二 第三 第四 第五 第六"
  #建立詞雲
  wc = WordCloud(collocations=False,background_color="white").generate(text)
  #設定詞的顏色
  color_to_words={
    #使用RGB來設定詞的顏色
    "#00ff00":["第一","第五"],"red":["第三","第六"],"yellow":["第二"]
  }
  #設定詞預設的顏色
  default_color = "blue"
  grouped_color_func = GroupedColorFunc(color_to_words,default_color)
  #設定詞雲的顏色
  wc.recolor(color_func=grouped_color_func)
  #顯示詞雲圖
  plt.figure()
  plt.imshow(wc,interpolation="bilinear")
  plt.axis("off")
  plt.show()

python詞雲庫wordCloud使用方法詳解(解決中文亂碼)

通過詞的顏色設定類，來設定不同詞的顏色。

4、自定義突出詞的重要程度

在生成詞雲的時候，預設使用的是使得詞頻高的詞更加突出，突出的詞會比較大，有時候我們已經計算出了詞的權重，想通過詞雲圖來突出權重大小的差別。

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import numpy as np
 
def get_mask():
  x,:300]
  mask = (x-150) ** 2 + (y-150) ** 2 > 130 ** 2
  mask = 255 * mask.astype(int)
  return mask
 
if __name__ == "__main__":
  #每個詞的權重
  text = {"第一":0.1,"第二":0.2,"第三":0.3,"第四":0.4,"第五":0.5}
  wc = WordCloud(background_color="white",mask=get_mask())
  wc.generate_from_frequencies(text)
  plt.axis("off")
  plt.imshow(wc,interpolation="bilinear")
  plt.show()

python詞雲庫wordCloud使用方法詳解(解決中文亂碼)

5、儲存詞雲圖片

wc.to_file("test.png")

更多關於python詞雲庫wordCloud使用方法請檢視下面的相關連結

python詞雲庫wordCloud使用方法詳解(解決中文亂碼)

文章中的例子主要借鑑wordColud的examples，在文章對examples中的例子做了一些改動。

python詞雲庫wordcloud的使用方法與例項詳解

wordcloud是優秀的詞雲展示第三方庫一、基本使用 import jieba import wordcloud txt = open(\"1.txt\",\"r\",encoding=\'utf-8\').read()

Python操作mongodb資料庫的方法詳解

本文例項講述了Python操作mongodb資料庫的方法。分享給大家供大家參考，具體如下：

python檔案處理fileinput使用方法詳解

這篇文章主要介紹了python檔案處理fileinput使用方法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python實現快速排序的方法詳解

本文例項講述了Python實現快速排序的方法。分享給大家供大家參考，具體如下：

python retrying模組的使用方法詳解

前言我們在寫爬蟲的過程中，經常遇到爬取失敗的情況，這個時候我們一般會通過try塊去進行重試，但是每次都寫那麼一堆try塊，真的是太麻煩，所以今天就來說一個比較pythonic的模組，retrying.

Python爬蟲 urllib2的使用方法詳解

所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。在Python中有很多庫可以用來抓取網頁，我們先學習urllib2。

Python使用Pandas庫常見操作詳解

本文例項講述了Python使用Pandas庫常見操作。分享給大家供大家參考，具體如下：

VUE中使用HTTP庫Axios方法詳解

Axios 是一個基於 promise 的 HTTP 庫，可以用在瀏覽器和 node.js 中安裝Axios模組在Vue中使用，最好安裝兩個模組axios 和vue-axios

Python終端輸出彩色字元方法詳解

有時候需要在終端顯示彩色的字元，即根據需要顯示不同顏色的字串，比如我們要在終端列印一行錯誤提示資訊，要把它弄成紅色的。其實這個在Python中很好實現，使用轉義序列來實現不同顏色的顯示，轉義序列以ESC開頭，它

python隨機模組random使用方法詳解

random隨機模組包括返回隨機數的函式，可以用於模擬或者任何產生隨機輸出的程式。

Python安裝依賴(包)模組方法詳解

Python模組，簡單說就是一個.py檔案，其中可以包含我們需要的任意Python程式碼。迄今為止，我們所編寫的所有程式都包含在單獨的.py檔案中，因此，它們既是程式，同時也是模組。關鍵的區別在於，程式的設計目標是執行

Python中Selenium庫使用教程詳解

selenium介紹 selenium最初是一個自動化測試工具,而爬蟲中使用它主要是為了解決requests無法直接執行JavaScript程式碼的問題 selenium本質是通過驅動瀏覽器，完全模擬瀏覽器的操作，比如跳轉、輸入、點選、下拉等，來

Python實現畫圖軟體功能方法詳解

概述雖然Python的強項在人工智慧，資料處理方面，但是對於日常簡單的應用，Python也提供了非常友好的支援（如：Tkinter），本文主要一個簡單的畫圖小軟體，簡述Python在GUI（圖形使用者介面）方面的應用，僅供學習

Python字串及文字模式方法詳解

一、你想在字串中搜索和匹配指定的文字模式遺漏點：re模組其實也是幫助我們進行字串處理的重要工具，我之前總是想著用內建的函式來處理，其實如果是複雜的文字和資料結構，re模組能幫助我們處理很多資訊。

Python Pillow(PIL)庫的用法詳解

Pillow庫是一個Python的第三方庫。在Python2中，PIL(Python Imaging Library)是一個非常好用的影象處理庫，但PIL不支援Python3，所以有人(Alex Clark和Contributors)提供了Pillow，可以在Python3中使用。

python爬蟲---requests庫的用法詳解

requests是python實現的簡單易用的HTTP庫，使用起來比urllib簡潔很多因為是第三方庫，所以使用前需要cmd安裝

Python importlib模組過載使用方法詳解

模組介紹 Python提供了importlib包作為標準庫的一部分。目的就是提供Python中import語句的實現（以及__import__函式）。另外，importlib允許程式設計師建立他們自定義的物件，可用於引入過程（也稱為importer）。

一文秒懂！Python字串格式化之format方法詳解

format是字串內嵌的一個方法，用於格式化字串。以大括號{}來標明被替換的字串，一定程度上與%目的一致。但在某些方面更加的方便

python基礎教程Python字串及文字模式方法詳解

更多python教程請到：菜鳥教程https://www.piaodoo.com/ 一、你想在字串中搜索和匹配指定的文字模式

python詞雲庫wordCloud使用方法詳解(解決中文亂碼)

相關推薦