Python文本處理: 分詞和詞雲圖

阿新 • • 發佈：2018-05-15

wordcloud jieba python3 詞雲分詞

‘‘‘
import os
import jieba  # 分詞包
import numpy  # numpy計算包
import codecs  # codecs提供open方法指定打開的文件的語言編碼，它會在讀取時自動轉換為內部的unicode
import pandas  # 統計學工具包
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator    # 詞雲包
from scipy.misc import imread
from time import sleep

def join_txt():
    # ---- 合並txt文件
    # 獲取目標文件夾的路徑
    meragefiledir = os.getcwd() + ‘\\corpus‘
    # 獲取當前文件夾中的文件名稱列表
    filenames = os.listdir(meragefiledir)
    # 打開當前目錄下的result.txt文件，如果沒有則創建
    file = open(‘all_result.txt‘, ‘w‘)
    # 向文件中寫入字符   先遍歷文件名
    for filename in filenames:
        filepath = meragefiledir + ‘\\‘
        filepath = filepath + filename
        # 遍歷單個文件，讀取行數
        for line in open(filepath,encoding=‘utf-8‘):
            file.writelines(line)
        file.write(‘\n‘)
    file.close()
def make_pic():
    # 導入文本，分詞處理
    file = codecs.open(u‘all_result.txt‘, ‘r‘)
    content = file.read()
    file.close()
    segment = []
    segs = jieba.cut(content)   # 使用jieba分詞
    for seg in segs:
        if len(seg) > 1 and seg != ‘\r\n‘:
            segment.append(seg)

    # 去停用詞(文本去噪)
    words_df = pandas.DataFrame({‘segment‘: segment})
    words_df.head()
    stopwords = pandas.read_csv("stopword.txt", index_col=False,
                                quoting=3, sep=‘\t‘, names=[‘stopword‘], encoding="utf8")
    words_df = words_df[~words_df.segment.isin(stopwords.stopword)]
    # print(words_df.head(6))
    # 詞匯頻率表
    words_stat = words_df.groupby(by=[‘segment‘])[‘segment‘].agg({"count": numpy.size})
    words_stat = words_stat.reset_index().sort_values(by="count", ascending=False)
    # 自定義詞雲背景
    bimg = imread(‘mangguo.png‘)
    wordcloud = WordCloud(background_color="white", mask=bimg, font_path=‘msyh.ttf‘)
    wordcloud = wordcloud.fit_words(dict(words_stat.head(990000).itertuples(index=False)))
    #  從背景圖片生成顏色值
    bimgColors = ImageColorGenerator(bimg)
    plt.axis("off")
    plt.imshow(wordcloud.recolor(color_func=bimgColors))
    # plt.show()
    wordcloud.to_file( "ciyun.png")

if __name__ == ‘__main__‘:
    join_txt()
    sleep(2)
    print(‘txt 文件整合完成！----‘)
    make_pic()
    print(‘ 詞雲 圖片生成 完成-----ciyun.png ‘)

‘‘‘

win 上 wordcloud包需要自己安裝，可以去 https://www.lfd.uci.edu/~gohlke/pythonlibs/
下載對應的whl版本。

需要註意：

wordcloud = wordcloud.fit_words(dict(words_stat.head(990000).itertuples(index=False)))
這裏接受的是一個 dict類型

Python文本處理: 分詞和詞雲圖

wordcloud jieba python3 詞雲分詞 ‘‘‘ import os import jieba # 分詞包 import numpy # numpy計算包 import codecs # codecs提供open方法指定打開的文件的語言編碼，它會在讀取時自動轉換為內

python文本處理練習-3

處理 style urn span bsp 最小 turn python3 num "計算數組中最小的兩個數的和" #!usr/bin/python3 #-*- coding:utf-8 -*- numbers=np.array((4,3,7,5,6)) def sum

python文本處理--定位motif在fasta文件上的位置，並給出位置信息

find span dna pytho 文件 str odin color 所有 #!/usr/bin/python3 #-*- coding:utf-8 -*- #在序列文件上找出所有的指定motif的位置 dna=‘ATGCGAGAGAGAGAGAAGTGCTGTGT

python文本處理---計算fasta文件中不同氨基酸的數目

ros family pos port line import 文本不同 split #::!/usr/bin/python3 #-*- coding:utf-8 -*- #計算fasta文件中各個氨基酸的含量 import sys args=sys.argv f=

零基礎學習Python文本處理

python源 | 小象文 | 賈庸本文將帶領小夥伴們一起，使用Python進行文本處理，先來看下要處理的文本，文件名為“data.txt”，文件裏面的內容是三行中英對照的文本，和兩個空行，我們要實現的功能就是從這三行文本中分別抽取出中文及其對應的英文，這個功能再加上爬蟲，就可以制作自己專屬的英

python文件處理（對比和篩選）

重復不能 class split str1 file 掉換行符對比讀取 #!/user/bin/python #!coding=utf-8 # -*- coding: utf-8 -*- # 2017-9-25 #author:jingwenshuai import

python文本處理

使用 with open most 字符串 als lin can fir Coding 1.在文本提取URL 這個主要用於爬蟲技術：把爬取的html頁面保存為一個字符串，再從字符串中進行提取URL 比如把一個字符串保存在文件中 Now a day

Linux系統管理之Python生態工具、文本處理和系統管理

相對 print 重復調用示例快捷 python編程 expr markup htm 一、Python生態工具一、Python內置小工具　　1、秒級啟動一個下載服務器　　Python 內置了一個下載服務器就能夠顯著提升效率了。例如，你的同事要讓你傳

python文本 maketrans和translate

刪除字符 repeat 保留不能需要映射 class 接受 python文本 maketrans和translate 場景：過濾字符串的某些字符，我們從例子出發 >>> tb=str.maketrans (‘abc‘,‘123‘) &g

python文本單獨處理每個字符的方法匯總

其他 pri gin att bcd one ima post space python文本單獨處理字符串每個字符的方法匯總場景：用每次處理一個字符的方式處理字符串方法： 1.使用list（str） >>> a=‘abcdefg‘ >

第六章，文本處理工具和正則表達式

文本處理工具 vim 正則表達式更多筆記點擊查看Linux學習從入門到打死也不放棄，完全筆記整理（持續更新）http://blog.51cto.com/13683480/2095439筆記整理起始時間：2018年4月7日14:15:07 本章內容：各種文本工具來查看、分析、統計文本cat，tac

iOS-文本段落樣式NSMutableParagraphStyle與NSParagraphStyle的使用和一些富文本處理屬性

first light mini 方式 back art bottom mode targe 開發過程中，經常會遇到動態計算行高的問題， - (CGRect)boundingRectWithSize:(CGSize)size options:(NSStringDrawin

【Python】Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜

round b+ param 有意做了你會 lib extra 補充本文轉載自：https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%B

Python數據分析8-----網頁文本處理

處理 load 小寫停用分開 imp html pan 大小寫 1、去除網頁的標簽，如<br/> from bs4 import BeautifulrSoup preData=BeautifulSoup(data,‘html.parser‘).get_t

機器學習---文本特征提取之詞袋模型（Machine Learning Text Feature Extraction Bag of Words）

from 就是 mat 關聯關系關系們的維度進行 class 假設有一段文本："I have a cat, his name is Huzihu. Huzihu is really cute and friendly. We are good friends." 那

Linux文本處理工具及用戶組和權限管理

rgs 系統加密家目錄用戶和組管理 mark 否則文件中 useradd 1、列出當前系統上所有己經登錄的用戶的用戶名，註意：同一個用戶登錄多次，則只顯示一次即可。執行命令：who | cut -d " " -f1|sort -u 2 、取出最

rpm與yum命令、定時任務和sed文本處理

ace 百分比因此 term vpd 包安裝 src image 轉換 1、簡述rpm與yum命令的常見選項，並舉例rpm命令：語法：rpm [OPTIONS] [PACKAGE_FILE] 選項：安裝: -i, --install 升級: -U, -

linux安裝包管理：yum和rpm 文本處理：sed

repos rpm -e 偶數匹配 usr ip地址 rpm查詢 att 替代 1.每12小時備份並壓縮/etc/目錄到/data中，並保存文件格式為“etc-年-月-日-時-分.tar.gz” 編寫腳本用來備份文件/root/etcback.sh #!/bin/

資料探勘01---文字分析（jieba分詞和詞雲繪製）

一、定義：文字挖掘：從大量文字資料中抽取出有價值的知識，並且利用這些知識重新組織資訊的過程。二、語料庫（Corpus）語料庫是我們要分析的所有文件的集合。 import os import os.path filePaths = [] #定義一個數組變數 #再用

coreseek之mmseg分詞和詞庫拓展

mmseg分詞 mmseg分詞演算法是基於統計模型的，所以演算法的規則也是來自對語料庫的分析和數學歸納，因為中文字元沒有明確的分界，會導致大量的字元分界歧義，而且，中文裡面，詞和短語也很難界定，因此，演算法除了要做統計和數學歸納之外，還要做歧義的解決。在mmseg分詞中，

Python文本處理: 分詞和詞雲圖

需要註意：

相關推薦