【實戰】詞頻統計及詞雲圖製作

阿新 • • 發佈：2018-12-22

寫在開頭

最近對詞雲有些興趣，就自己瞎琢磨研究一些這方面的知識，期間也遇到一些小問題，寫下此篇文章留作備註吧。

研究物件

金庸老先生的《天龍八部》

正式開始（微笑臉）

統計字頻
（1）先統計下小說的字頻數：
天龍八部總共用字量4134個，top20的字不出意外都是一些常用詞，不過“一”竟然排名第二很讓我意外。

# -*- coding:utf-8 -*-
import re

wordcount = {}
stopwords=[]
# stopwords = [u'好',u'一',u'的',u'了']

with open('F:\\tlbb.txt','r') as 
  files:
    text = files.read().decode('gb18030')
    text = text.strip('\n').strip('\t').strip(' ')
    string = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[：“”+——！，。？、[email protected]#￥%……&*（）]+".decode("utf8"), "".decode("utf8"),text) #去除標點符號
    for word in string:
        if word in stopwords:
            continue 

        wordcount[word] = wordcount.get(word,0)+1
    wordcount = sorted(wordcount.items(),key=lambda d:d[1],reverse=True)
    print len(wordcount)
    for x in xrange(20):
        print wordcount[x][0]+':'+str(wordcount[x][1])
files.close()

*執行結果*

字數： 4134
以下是排名前20的各個子的數量統計
不:20125
一:18732
的:18565
是:16524
道:15564
了:15413
人:12627
我:11000
你:10108
這:9893
他:9794
大:9083
來:8870
之:8064
說:7123
中:7056
得:6651
在:6624
下:6465
上:6443

詞頻統計及詞雲圖製作
從詞雲圖中可以看出三大主角的名字還是很凸顯。當然我也看到詞雲圖中的“一個”了，想不到這個詞的佔比挺高的。

這裡寫圖片描述

本來是想借助上面統計字頻，做一個停用詞集的。但是沒有弄好，新增到stopwords引數中，完全沒有效果，只能回頭再研究研究。當然如果讀到此處你的知道怎麼回事，煩請告知，感激不盡呀！

以下是詞雲程式碼：

# -*- coding:utf-8 -*-

#天龍八部分詞統計
import jieba
from wordcloud import WordCloud,STOPWORDS
import matplotlib.pyplot as plt

s={}
with open('F:\\tlbb.txt','r') as  files:
    fid = files.read()
    fc = jieba.cut(fid)   #用jieba分詞

    for words in fc:
        if len(words)>1:
            s[words] = s.get(words,0)+1

    word = sorted(s.items(),key=lambda (word,count):count,reverse=True)
    word = dict(word[1:100])
    # for x in word:
    #   print x ,
    wordcloud = WordCloud(font_path = 'C:/Windows/Fonts/msyh.ttf',      # 設定字型格式，如不設定顯示不了中文
                          background_color="black",      # 設定背景顏色
                          stopwords=STOPWORDS,  # 設定停用詞
                          max_font_size=40,     # 設定字型最大值
                          random_state=30,  # 設定有多少種隨機生成狀態，即有多少種配色方案
                          relative_scaling=.5
                          ).fit_words(word) #word為字典格式
    plt.figure()
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.show()
files.close()

問題總結

WordCloud().fit_words(word) 中的這個word是傳入的是字典，之前一直傳入錯誤，看了原始碼才恍然大悟
詞雲圖中停用詞的新增失敗

參考

最後希望對看到此處的你有所幫助【微笑】

【實戰】詞頻統計及詞雲圖製作

寫在開頭最近對詞雲有些興趣，就自己瞎琢磨研究一些這方面的知識，期間也遇到一些小問題，寫下此篇文章留作備註吧。研究物件金庸老先生的《天龍八部》正式開始（微笑臉）統計字頻（1）先統計下小說的字頻數：天龍八部總共用字量4134個，

中文分詞，詞頻統計，詞雲圖製作

from collections import Counter import jieba #jieba的安裝就不多介紹，網上相應的教程比較多 import matplotlib.pyplot as plt from wordcloud import WordClo

中文詞頻統計及詞雲制作

print word 詞雲出現不能分享 item 希望技術 1.中軟國際華南區技術總監曾老師還會來上兩次課，同學們希望曾老師講些什麽內容？（認真想一想回答）希望能講一些大數據相關內容，深入了解一下。 2.中文分詞下載一中文長篇小說，並轉換成UTF-8編

+中文詞頻統計及詞雲制作9-25

輸出很難 imp range 著名 python cloud 基本 jieba 1.我希望老師能講一點python在數據挖掘，數據分析領域的應用，最好能舉些實例，或者說帶我們實際操作一波。 2.中文分詞下載一中文長篇小說，並轉換成UTF-8編碼使用

Python生成詞雲圖，TIIDF方法文字挖掘: 詞頻統計，詞雲圖

python中使用wordcloud包生成的詞雲圖。下面來介紹一下wordcloud包的基本用法。 class wordcloud.WordCloud(font_path=None, widt

利用Python3做詞頻統計和詞雲圖

起源：因看到一篇滿眼是字的文章，故希望能夠快速的檢索出關鍵字，所以嘗試用Python3來實現。程式碼 import jieba import numpy import codecs import pandas import matplotlib.py

【基礎+實戰】JVM原理及優化系列之八：如何檢視JVM引數配置？

1. 檢視JAVA版本資訊 2. 檢視JVM執行模式在$JAVA_HOME/jre/bin下有client和server兩個目錄，分別代表JVM的兩種執行模式。 client執行模式，針對桌面應用，載入速度比server模式快10%，而執行速度為server模

【專欄】- Golang自學及專案實戰

Golang自學及專案實戰一個偶然的機會讓我接觸到golang，被其能把很複雜的高效能開發變得簡單起來的優點深深吸引，從此一發不可收拾。。。該專欄為我自學golang的一些重點總結以及專案中常遇到的一些問題，希望能吸引更多人

【Flutter實戰】圖片元件及四大案例

![](https://img2020.cnblogs.com/other/467322/202006/467322-20200616211503680-942638115.png) > 老孟導讀：大家好，這是【Flutter實戰】系列文章的第三篇，這一篇講解圖片元件，Image有很多高階用法，希望對

大數據【二】HDFS部署及文件讀寫（包含eclipse hadoop配置）

throw 大數據我的電腦 ssh 生效 manager 方法 slave .sh 一　　原理闡述 1‘　　DFS 　　　　分布式文件系統（即DFS，Distributed File System），指文件系統管理的物理存儲資源不一定直接連接在本地節點上，而是通過計算機網

【PostgreSQL】進程及體系結構

體系結構同時 image add 負責 com blog images 後臺本文主要講述了PG的幾個主要進程，以及PG的核心架構。進程和體系結構詳見下圖：從上面的體系結構圖可以看出來，PG使用經典的C/S架構，進程架構。在服務器端有主進程、服務進程、子進程、共享

【Linux】 JDK安裝及配置 (tar.gz版)

ubuntu logs 環境 pat source alt 修改 8.0 添加安裝環境　　Linux（Ubuntu 版） JDK安裝　　tar.gz為解壓後就可以使用的版本，這裏我將使用jdk-8u65-linux-x64.tar.gz版，安裝到/usr/java/下

【一】MongoDB安裝及配置

.org root 終端配置 conn tin serve cal 數據文件一、MongoDB安裝 1、下載並解壓 wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel62-3.2.0.tgz

Fiddler抓包【1】_介紹及界面概述

緩存沒有 user 編輯器主菜單 selected ble bar 文件格式一、主要抓包工具介紹與對比 1、Wireshark ：通用抓包工具，抓取信息量龐大，需要過濾才能得到有用信息，只抓HTTP請求有點大財小用。 2、Firebug、HttpWatch等We

【Python】【實戰】【一：】

想要目錄系統變量 ack 2.7 file 申請 ntc pytho 1. 環境配置我電腦Windows7 64位 + Python2.7 + Oracle客戶端 10.2 + cx_Oracle 10g Oracle客戶端下載（為此我還申請個Oracle賬號

【Luogu1608】路徑統計（最短路）（DP）

要花 include dijkstra main std mar 行為不能總數題目傳送門題目描述 “RP餐廳”的員工素質就是不一般，在齊刷刷的算出同一個電話號碼之後，就準備讓HZH,TZY去送快餐了，他們將自己居住的城市畫了一張地圖，已知在他們的地圖上，有N個地方，

【BZOJ3992】序列統計（動態規劃，NTT）

swap int 乘法 true ble spa main 們的 oid 【BZOJ3992】序列統計（動態規劃，NTT）題面 BZOJ 題解最裸的暴力設$f[i][j]$表示前$i$個數，積在膜意義下是$j$的方案數轉移的話，每次枚舉一個數，直接丟進去

【XSY2668】排列統計 DP

自己解釋復雜度 utili gpo 每次 lin ctime h+ 題目描述　　給你一個長度為$n$的排列$a$，每次要選擇兩個數，交換這兩個數（這兩個數可以相同）。總共要交換$k$次。　　最後要統計數列中有多少位置$i$滿足\(\max_{j\le

在Oracle Database 12.1 中異機遷移恢復數據庫【實戰】

異機恢復 oracle12c restore recover 平臺環境：源OS：Oracle Linux 7.3源DB：Oracle Database 12.1.0.2 目標OS：Oracle Linux 7.3目標DB：Oracle Database 12.1.0.2一、準備工作1、查詢當前

在Oracle12.1中使用NID 修改數據庫的DBID和DBName【實戰】

DBID DBName Nid 在異機恢復完成後，使用NID 修改數據庫的DBID和DBName，重新啟動數據庫。主要步驟如下：1、開啟數據庫： SQL> startup ORA-32004: obsolete or deprecated parameter(s) specified fo

【實戰】詞頻統計及詞雲圖製作

寫在開頭

研究物件

正式開始（微笑臉）

問題總結

參考

相關推薦