中文分詞，詞頻統計，詞雲圖製作

阿新 • • 發佈：2018-12-22

from collections import Counter

import jieba

#jieba的安裝就不多介紹，網上相應的教程比較多

import matplotlib.pyplot as plt

from wordcloud import WordCloud

#wordcloud安裝出現了bug，解決的方案就是另外一篇的blog

http://blog.csdn.net/qq_35273499/article/details/79078692

##建立停用詞list

#此處分詞之後去除多餘的停用詞def Stopwordlist(filepath):

stopwords = []

for line in open(filepath,'r').readlines():

stopwords.append( line.strip())

#print(stopwords)

return stopwords

##對句子進行分詞

def Cut_Sentence(rawfile,stopwordpath):

outstr = []

stopwords = Stopwordlist(stopwordpath)

for line in rawfile:

sentence_seged = jieba.cut(line.strip(),cut_all = False)#line.strip()去除換行符

for word in sentence_seged:

if word not in stopwords:

if word!= '\t':

outstr.append(word)

#print(outstr)

return outstr

#詞頻統計

def Countword(outstrlist):

data = dict(Counter(outstrlist))

data1 = sorted(data.items(), key=lambda d:d[1], reverse = True)

data2 = dict((key ,values)for key,values in data1)

'''

data.iteritems() 得到[(鍵，值)]的列表。

然後用sorted方法，通過key這個引數，指定排序是按照value，

也就是第一個元素d[1的值來排序。reverse = True表示是需要翻轉的，

預設是從小到大，翻轉的話，那就是從大到小。'''

return data2

#製作詞雲圖

def Wordcloud(text):

wc = WordCloud(

background_color = 'white', # 設定背景顏色

max_words = 2000, # 設定最大現實的字數

font_path = r'H:\cutword\msyhbd.ttf',# 設定字型格式，如不設定顯示不了中文

# mask = trump_coloring,

width =800,

height = 600,

max_font_size = 50, # 設定字型最大值

random_state = 30, # 設定有多少種隨機生成狀態，即有多少種配色方案

)

wc.generate(text)

wc.to_file('H:\cutword\wordcloud.png')

#my_wordcloud = WordCloud().generate(str(strlist))

plt.imshow(wc)

plt.axis("off")#不新增座標軸

plt.show()

if __name__ == '__main__':

stopwordpath ='H:\cutword\stopwords.txt'#停用詞路徑

rawfile = open('H:\cutword\dqdg\dqdg.txt','r')#需要進行分詞的原文字

outfile = open("H:\cutword\outwords.txt",'w+')#分詞並進行去除停用詞後的文字

countfile = open('H:\cutword\wordcount.txt','w')#將詞頻統計寫入檔案中

outstrlist = Cut_Sentence(rawfile,stopwordpath)

countword = Countword(outstrlist)

Wordcloud(str(outstrlist))

for line in outstrlist:

outfile.write(line + " ")#將分詞結果寫入檔案

for key in countword.keys():

countfile.write(key + ' ' + str(countword[key]) + '\n') #寫入txt文件

#Wordcloud()

rawfile.close()

outfile.close()

countfile.close()

進行分詞的預料是孫皓暉的《大秦帝國》：https://pan.baidu.com/s/1o94kRGY 密碼：2q2t

停用的詞的部分截圖 https://pan.baidu.com/s/1dGMeivn

最終分詞的效果

進行分詞之後，我們還進行了詞頻的統計，按詞頻從大到小進行排序並將結果儲存在檔案中。如下圖

所需的字型（若無字型，無法識別中文）：https://pan.baidu.com/s/1oAj2wJ4 密碼：mq2a

將部分詞製作詞雲圖，最終的結果：可以看到，‘秦國’，‘衛鞅，‘龐涓’，‘商鞅’，‘國君’等出現比較高

中文分詞，詞頻統計，詞雲圖製作

from collections import Counter import jieba #jieba的安裝就不多介紹，網上相應的教程比較多 import matplotlib.pyplot as plt from wordcloud import WordClo

Python進行文字預處理（文字分詞，過濾停用詞，詞頻統計，特徵選擇，文字表示）

系統：win7 32位分詞軟體：PyNLPIR 整合開發環境（IDE）：Pycharm 功能：實現多級文字預處理全過程，包括文字分詞，過濾停用詞，詞頻統計，特徵選擇，文字表示，並將結果匯出為WEKA能夠處理的.arff格式。直接上程式碼： #!/usr/bin/

自然語言處理學習3：中文分句re.split()，jieba分詞和詞頻統計FreqDist

1. 使用re.split() 分句，re.split(delimiter, text) import jieba import re # 輸入一個段落，分成句子，可使用split函式來實現 paragraph = "生活對我們任何人來說都不容易！我們必須努力，最重要的是

自然語言分詞處理，詞頻統計

目標：將一段文字做分詞處理，並統計分詞中出現頻度最高的五組詞。程式碼： ToAnalysis.java package com.test; import java.io.Reader; import java.util.ArrayList; import java.

Python生成詞雲圖，TIIDF方法文字挖掘: 詞頻統計，詞雲圖

python中使用wordcloud包生成的詞雲圖。下面來介紹一下wordcloud包的基本用法。 class wordcloud.WordCloud(font_path=None, widt

初探nlp 詞頻統計，去停頓詞

一些簡單且實用的python操作 rainbow = open(r'C:\Users\Linsinan\Desktop\彩虹.txt') text = rainbow.read().split() text.count('the') # 詞頻計算 words = set(text)

中文分詞與詞頻統計例項

http://blog.ourren.com/2014/09/24/chinese_token_and_frequency/ 話說近兩年大資料確實火了，帶給我們最直接的視覺感受就是利用圖或者表來展示大資料所隱藏的內容，真是真實而又直觀。然而技術部落格的側邊欄標籤雲就

中文詞頻統計及詞雲制作

print word 詞雲出現不能分享 item 希望技術 1.中軟國際華南區技術總監曾老師還會來上兩次課，同學們希望曾老師講些什麽內容？（認真想一想回答）希望能講一些大數據相關內容，深入了解一下。 2.中文分詞下載一中文長篇小說，並轉換成UTF-8編

+中文詞頻統計及詞雲制作9-25

輸出很難 imp range 著名 python cloud 基本 jieba 1.我希望老師能講一點python在數據挖掘，數據分析領域的應用，最好能舉些實例，或者說帶我們實際操作一波。 2.中文分詞下載一中文長篇小說，並轉換成UTF-8編碼使用

python 分詞、自定義詞表、停用詞、詞頻統計與權值（tfidf）、詞性標註與部分詞性刪除

# -*- coding: utf-8 -*- """ Created on Tue Apr 17 15:11:44 2018 @author: NAU """ ##############分詞、自定義詞表、停用詞################ import jieba

使用Spark、Ansj分詞進行詞頻統計

使用Spark進行詞頻統計最近在做一個專案，要對大量的文字進行詞頻統計，發現常規的方法處理比較慢，所以嘗試使用Spark進行計算。思路大致是這樣：爬蟲爬取京東的評論資料到mongodb,然後我從mongodb拉資料上傳到HDFS,從HDFS拉資料然後用Spa

中文詞頻統計與詞雲生成

讀取 word .com cloud 雲圖文本文 span odi otl 中文詞頻統計 1. 下載一長篇中文小說。 2. 從文件讀取待分析文本。 ltxz = open(r‘F:/ltxz.txt‘,‘r‘,encoding=‘utf-8‘).read()

【實戰】詞頻統計及詞雲圖製作

寫在開頭最近對詞雲有些興趣，就自己瞎琢磨研究一些這方面的知識，期間也遇到一些小問題，寫下此篇文章留作備註吧。研究物件金庸老先生的《天龍八部》正式開始（微笑臉）統計字頻（1）先統計下小說的字頻數：天龍八部總共用字量4134個，

利用Python3做詞頻統計和詞雲圖

起源：因看到一篇滿眼是字的文章，故希望能夠快速的檢索出關鍵字，所以嘗試用Python3來實現。程式碼 import jieba import numpy import codecs import pandas import matplotlib.py

91---Criteria的內連結，分頁，查詢唯一物件，條件查詢，分組統計，投影查詢，DetachedCriteria

================Criteria分頁加動態查詢方法====================================== public PageInfo<Auction> select(Auction condition, int pageIndex){DetachedC

Spark Streaming之使用Spark Streaming完成詞頻統計，並將結果寫入到MySQL資料庫中

package com.yys.spark.project import java.sql.DriverManager import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds,

第三次，詞頻統計

分析文件 png 緩存程序 *** nbsp 統計 .com 技術學號：20170****1060 姓名：李冬我的碼雲地址：https://gitee.com/shaqiya/word_frequency/tree/SE1060/ 第一段函數打開讀

ios開發之--textview意見反饋頁面（占位label，字數統計，提交按鈕的交互設置）

ould 技術 ima out == img ios開發 del 分享圖片記錄一個頁面的功能： textview的占位符，字數統計，提交按鈕的交互設置，具體效果圖如下：輸入效果：具體實現代碼如下： 1，設置代理 @interface FKViewControll

Python16 ：模擬骰子出現的點數，做統計，並使用pygal庫繪製直方圖

首先，分析一下問題。對於一個骰子來說，總共有6面，所以，我們可以建立一個骰子類，初始化一個屬性為num_sides（面數）。緊接著，我們模擬擲骰子，要模擬擲骰子，無非是隨機出現一個1-6的值而已，因此，我們可以用random庫中的

python寫的日誌監控程式，關鍵字統計，日誌大小監控，關鍵字出現報警並擷取日誌

#!/bin/python #coding:UTF-8 ''' @author: verlink @desc: log monitor @date: 2015-6-16 ''' import sys import re impo

中文分詞，詞頻統計，詞雲圖製作

相關推薦