用python對我和女票的聊天記錄生成心形詞雲

阿新 • • 發佈：2019-01-28

前言

最近看到一些利用python製作詞雲的教程，突然想到用自己和女友的聊天記錄做一個詞雲，看看平時我倆最常說的都是啥，然後用愛心的形狀展示出來，以下是成品:

由於匯出的記錄只有最近兩個星期的，再加上這兩個星期我女票她都在備考，因此聊天內容並不是特別多，資料可能不是特別有代表性，但至少也能看看了。

資料處理

首先我們從QQ中匯出txt格式的聊天記錄，並在python中開啟

f = open('/Users/aaron/文件/My one and only.txt')
fl = f.readlines()

我們來檢視一下資料：

['\ufeff訊息記錄（此訊息記錄為文字格式，不支援重新匯入）\n 
',
 '\n',
 '================================================================\n',
 '訊息分組:My one and only\n',
 '================================================================\n',
 '訊息物件:xxx\n',
 '================================================================\n',
 '\n',
 '2018-01-12 下午4:00:40 xxx\n',
 '好醜操\n 
',
 '\n',
 '2018-01-12 下午4:00:49 xxx\n',
 '好臭\n',
 '\n',
 '2018-01-12 下午4:00:50 xxx\n',
 '好臭\n',
 '\n',
 '2018-01-12 下午4:01:27 xxx\n',
 '我吃牛肉乾\n',
 '\n',

可以看出前7行是頭資訊，下邊的資料按照：
- 時間，
- 單句聊天記錄，
- ‘\n’

每三行為一組，於是我們首先刪去頭資訊

del fl[:8]

接下來我們只需要從下標為1開始，步長為3的聊天記錄的資料：

fl = fl[1::3]

其中 [1::3] 的意思為下標為1開始，步長為3的切片，比如：

>>> a = [0,1,2,3,4,5,6,7,8,9]
>>> a[1::3]
[1, 4, 7]
>>> a[::3]
[0, 3, 6, 9]
>>> a[:5:2]
[0, 2, 4]

之後的資料變為一個全部由聊天記錄組成的列表：

['好醜操\n',
 '好臭\n',
 '好臭\n',
 '我吃牛肉乾\n',
 '去去味\n',
 '。。。。\n',
 ...
 ]

我們將其組成一個字串，使用 ' '.join(list) 可以將一個列表組合成一個以空格為間隔的字串：

strf = ' '.join(fl)

觀察資料，發現記錄中有非常多的雜質，例如 /扯一扯，/糊臉, [放大招], [表情] 等，我們需要將這些雜質都去掉，於是匯入re正則表示式模組：

import re

兩種雜質，一種是以 / 開頭，一種是 [xx] 形式，我們用兩種正則表示式找出並轉換為集合去掉重複元素

list1 = re.findall(r'/.{2,3}', strf)
list2 = re.findall(r'\[.+?\]', strf)
set1 = set(list1)
set2 = set(list2)

我們可以看到：

以及

然後去掉這些雜質，因為有些出現頻率太高會影響最後結果

for item in set1:
    strf = strf.replace(item, '')
for item in set2:
    strf = strf.replace(item, '')

還有要自己手動去掉兩條：

strf = strf.replace('請使用最新版本手機QQ檢視', '')
strf = strf.replace('請使用最新版手機QQ體驗新功能', '')

資料乾淨之後就可以製作詞雲了。

jieba庫

我們利用 jieba 庫對記錄進行分詞操作，能將一個句子分為單個詞語。我們對jieba做一個簡單的瞭解，以下為官方文件中的一部分：

jieba.cut 方法接受三個輸入引數: 需要分詞的字串；cut_all 引數用來控制是否採用全模式；HMM 引數用來控制是否使用 HMM 模型

程式碼示例:

# encoding=utf-8
import jieba

seg_list = jieba.cut("我來到北京清華大學", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來到北京清華大學", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("他來到了網易杭研大廈")  # 預設是精確模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所，後在日本京都大學深造")  # 搜尋引擎模式
print(", ".join(seg_list))

輸出：

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

【精確模式】: 我/ 來到/ 北京/ 清華大學

【新詞識別】：他, 來到, 了, 網易, 杭研, 大廈    (此處，“杭研”並沒有在詞典中，但是也被Viterbi演算法識別出來了)

【搜尋引擎模式】： 小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造

若相對jieba進行更深的瞭解，可以點選此處

wordcloud庫

我們使用wordcloud包生成詞雲圖，首先了解一下其用法：

class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizontal=0.9,mask=None, scale=1, color_func=None, max_words=200, min_font_size=4, stopwords=None, random_state=None,background_color='black', max_font_size=None, font_step=1, mode='RGB', relative_scaling=0.5, regexp=None, collocations=True,colormap=None, normalize_plurals=True)

font_path : string //字型路徑，需要展現什麼字型就把該字型路徑+字尾名寫上，如：font_path = '黑體.ttf'

width : int (default=400) //輸出的畫布寬度，預設為400畫素

height : int (default=200) //輸出的畫布高度，預設為200畫素

prefer_horizontal : float (default=0.90) //詞語水平方向排版出現的頻率，預設 0.9 （所以詞語垂直方向排版出現頻率為 0.1 ）

mask : nd-array or None (default=None) //如果引數為空，則使用二維遮罩繪製詞雲。如果 mask 非空，設定的寬高值將被忽略，遮罩形狀被 mask 取代。除全白（#FFFFFF）的部分將不會繪製，其餘部分會用於繪製詞雲。如：bg_pic = imread('讀取一張圖片.png')，背景圖片的畫布一定要設定為白色（#FFFFFF），然後顯示的形狀為不是白色的其他顏色。可以用ps工具將自己要顯示的形狀複製到一個純白色的畫布上再儲存，就ok了。

scale : float (default=1) //按照比例進行放大畫布，如設定為1.5，則長和寬都是原來畫布的1.5倍。

min_font_size : int (default=4) //顯示的最小的字型大小

font_step : int (default=1) //字型步長，如果步長大於1，會加快運算但是可能導致結果出現較大的誤差。

max_words : number (default=200) //要顯示的詞的最大個數

stopwords : set of strings or None //設定需要遮蔽的詞，如果為空，則使用內建的STOPWORDS

background_color : color value (default=”black”) //背景顏色，如background_color='white',背景顏色為白色。

max_font_size : int or None (default=None) //顯示的最大的字型大小

mode : string (default=”RGB”) //當引數為“RGBA”並且background_color不為空時，背景為透明。

relative_scaling : float (default=.5) //詞頻和字型大小的關聯性

color_func : callable, default=None //生成新顏色的函式，如果為空，則使用 self.color_func

regexp : string or None (optional) //使用正則表示式分隔輸入的文字

collocations : bool, default=True //是否包括兩個詞的搭配

colormap : string or matplotlib colormap, default=”viridis” //給每個單詞隨機分配顏色，若指定color_func，則忽略該方法。



fit_words(frequencies)  //根據詞頻生成詞雲
generate(text)  //根據文字生成詞雲
generate_from_frequencies(frequencies[, ...])   //根據詞頻生成詞雲
generate_from_text(text)    //根據文字生成詞雲
process_text(text)  //將長文字分詞並去除遮蔽詞（此處指英語，中文分詞還是需要自己用別的庫先行實現，使用上面的 fit_words(frequencies) ）
recolor([random_state, color_func, colormap])   //對現有輸出重新著色。重新上色會比重新生成整個詞雲快很多。
to_array()  //轉化為 numpy array
to_file(filename)   //輸出到檔案

瞭解了這兩個包之後，我們開始正式製作詞雲。

製作詞雲圖

首先匯入所需要的庫：

import matplotlib.pyplot as plt
import jieba
import wordcloud

然後利用詞雲進行分詞操作，並將生成的列表合併成字串：

word_list = jieba.cut(strf, cut_all=True)
word = ' '.join(word_list)

之後利用wordcloud包，注意一定要加上中文字型的路徑，因為wordcloud預設是英文字型，並不支援中文，我們只需自己指定字型即可，我這裡使用的是宋體，並且指定背景顏色是白色。

wc = wordcloud.WordCloud(font_path='/Library/Fonts/Songti.ttc', background_color='white').generate(word)

最後使用matplotlib進行繪製：

plt.imshow(wc)
plt.axis('off')
plt.show()

詞雲圖就生成好了：

心形詞雲

為了生成心形的詞雲，我們首先找一張心形的圖片：

然後：

from scipy.misc import imread

加上mask引數後再次製作詞雲：

pic = imread('/Users/aaron/Pictures/aixin.png')
wc = wordcloud.WordCloud(mask=pic, font_path='/Library/Fonts/Songti.ttc', width=1000, height=500, background_color='white').generate(word)

plt.imshow(wc)
plt.axis('off')
plt.show()

心形詞雲圖誕生！

趕緊學一招然後發給自己的女朋友吧！

或許不是最優方法，歡迎指導。

程式碼

最後附上全部程式碼：

import re
import matplotlib.pyplot as plt
import jieba
import wordcloud
from scipy.misc import imread


# 資料處理
f = open('/Users/aaron/文件/My one and only.txt')   # 改成自己的聊天記錄檔案
fl = f.readlines()
del fl[:8]
fl = fl[1::3]
strf = ' '.join(fl)
list1 = re.findall(r'/.{2,3}', strf)
list2 = re.findall(r'\[.+?\]', strf)
set1 = set(list1)
set2 = set(list2)
strf = strf.replace('請使用最新版本手機QQ檢視', '')
strf = strf.replace('請使用最新版手機QQ體驗新功能', '')
for item in set1:
    strf = strf.replace(item, '')
for item in set2:
    strf = strf.replace(item, '')

# 製作詞雲
word_list = jieba.cut(strf, cut_all=True)
word = ' '.join(word_list)
pic = imread('/Users/aaron/Downloads/aixin.png')    
wc = wordcloud.WordCloud(mask=pic, font_path='/Library/Fonts/Songti.ttc', width=1000, height=500, background_color='white').generate(word)

plt.imshow(wc)
plt.axis('off')
plt.show()

用python對我和女票的聊天記錄生成心形詞雲

前言最近看到一些利用python製作詞雲的教程，突然想到用自己和女友的聊天記錄做一個詞雲，看看平時我倆最常說的都是啥，然後用愛心的形狀展示出來，以下是成品: 由於匯出的記錄只有最近兩個星期的，再加上這兩個星期我女票她都在備考，因此聊天內容並不是特別多，

用R語言分析我和男友的聊天記錄

這篇文章大概在好幾個月前就存在在腦海中。最開始是看了《遲到的情人節禮物：做一個與她微信聊天的詞雲吧》，覺得作者寫的很好玩，那個時候因為工作的原因剛開始學習R語言，一竅不通，我就想著那就用R學著

用Python3對QQ匯出的文字聊天記錄進行整理。

三個月沒看QQ群了。群裡有同學分享的近期答辯注意事項，於是乎想把近期QQ聊天記錄從頭到尾過一遍。匯出聊天記錄文字，發覺上萬行的文字，這麼讀效率有點低，所以用python整理了一下。這個是整理前的（手機端QQ聊天記錄匯出後的txt檔案）：這個是整理後的：附上程

和女票鬧矛盾，我用python把她的照片轉換成素描畫，現在和好了！

寫在前面 PS作為世界四大發明之一可以說被廣大網友用到了極致，只有你想不到的沒有我P不了的，任何正經的圖片在都可以變成搞笑圖片（比如下圖）當然也可以用ps做一點正經的事情。作為一個愛折騰的程式猿能用程式碼的解決的事情絕對不會用其他的方式，Python可以打飛機，

用Python對XML讀取和處理

簡介 XML不是為了方便閱讀而設計，而是為了編碼為資料。當有一些文字有很多文件，可以用編碼的方式使3一些文字便與處理。設計原則提供不依賴平臺的資料轉移方便的編寫讀寫XML程式資料格式是可驗證的便於人工閱讀為了支援各種應用而設計練習：提取XML資

python 對象和內存的關系

字符串賦值一個自動 nbsp 作用賦值時間就會垃圾清理首先你輸入了一個字符串，這個字符串是有大小的，電腦將其放在內存中，自動給其一個起始指針指向這個字符串的首位置，然後，你將這個字符串賦值給一個變量，這個對象又在內存中開辟出一個空間，這個變量會自動連接這個指

python對象和類

python對象和類#coding:utf-8 #1、對象是一個有著相應行為的數據的集合 #2、在面向對象建模中，用於各種描述對象的屬於叫做類 #3、類和對象的區別：類描述了對象，是創建對象的模板 #4、關聯是把兩個類聯系起來最基本的方式 #5、一個類可以通過關系中其他端的任何一個對象關聯在一起，這個類的對

【API】獲取當前進程的用戶對象和GDI對象

gdi size term npr text hand gui img lose GR_GDIOBJECTS 0 Return the count of GDI objects. // GR_USEROBJECTS 1 Return the count of US

python 對象和json互相轉換

processor val 2.6 構造 lar list tor sta python對象一、python對json的支持從python2.6開始，python標準庫中添加了對json的支持，操作json時，只需要import json即可。二、python

用Python實現stack和queue

棧的實現 class Stack(object): """棧""" def __init__(self): self.__list = [] def push(self, item): """新增一個新的元素item到棧頂"""

室友天偷看我電腦！還帶著紙巾？我決定用Python保護我的祕密了！

Python 3.6版本引入了一個名為secrets的新模組，用於生成強大而安全的隨機數。在本文中，我們將學習如何使用secrets模組來保護你的小祕密。在以往版本的Python中，random模組提供的隨機生成器是偽隨機數生成器，它不具有加密安全性，因此在Python 3.6及更高版本中添加

爬蟲還在用Python？我與Node.js不得不說的故事

深夜閒來無事，默默的開啟github,在搜尋框中填入了”Stars:>1”，本想著依舊可以在第一頁看到Spark的身影，結果第一個映入眼簾的是這個：快速瀏覽完第一頁(Top10)，10個專案裡面7個JS或者具體來說是Node.js的專案！Github歷來代表技術圈發展的風向，那麼這個在Git

python列表練習-用python實現棧和佇列

1.棧的工作原理：先進後出入棧出棧棧頂元素棧的長度棧是否為空 stack = [] info = """ 棧操作 1.入棧 2.出棧 3.棧頂元素 4.棧的長度 5.棧是否為空 """ while True:

用Python的func和dict模擬js或lua的面向物件

今天又重新看了一下js，也看了之前沒學的js的面向物件（之前的課缺的太多，這次花了半個小時百度了一點相關知識），突然感覺，js和lua的面向物件挺像的（lua沒有物件的概念，只是用table模擬的物件，我說感覺js和lua在這點很像，可能會有很多jsor(自己編

Python對HDFS和WEBHDFS的操作(一)

HDFS hdfs的定義: 　　Hadoop的分散式檔案系統（HDFS）被設計成適合執行通用硬體上的分散式檔案系統，它和現有的分散式檔案系統有很多的共同點。但同時，它和其它的分散式檔案系統的區別也是很明顯的，hdfs是一個高容錯性的系統，適合部署在廉價的機器上。HDFS能提供高吞吐量的資料訪問，非常適合大

[python] PyMouse、PyKeyboard用python操作滑鼠和鍵盤

1、PyUserInput 簡介 PyUserInput是一個使用python的跨平臺的操作滑鼠和鍵盤的模組，非常方便使用。支援的平臺及依賴如下： Linux - Xlib Mac - Quartz, AppKit Windows - pywin32, pyHook 支

python教程：PyMouse、PyKeyboard用python操作滑鼠和鍵盤

1、PyUserInput 簡介 PyUserInput是一個使用python的跨平臺的操作滑鼠和鍵盤的模組，非常方便使用。支援的平臺及依賴如下： Linux - Xlib Mac - Quartz, AppKit Windows - pywin

用Python看我的2018

前言 2018餘額已不到兩天，2018初的flag完成了幾個？今天我利用Python爬蟲和資料分析技術，分析我的2018年文章分享情況。 Python爬蟲爬蟲分析爬取的文章為簡書網2018年的文章，為什麼不選擇公眾號了？

用python對鹿晗、關曉彤微博進行情感分析哭著學習學習~

前言：本文主要涉及知識點包括新浪微博爬蟲、python對資料庫的簡單讀寫、簡單的列表資料去重、簡單的自然語言處理(snowNLP模組、機器學習)。適合有一定程式設計基礎，並對python有所瞭解的盆友閱讀。相信最近科技圈都在調侃一件事：10月8日中午的一條微博，引發了一場新浪微博使用者們(尤其是女性使用者

【Python】用python對excel進行讀寫

Description 0014 ：純文字檔案 student.txt為學生資訊, 裡面的內容（包括花括號）如下所示： { "1":["張三",150,120,100], "2":["李四",90,99,95], "3":[

用python對我和女票的聊天記錄生成心形詞雲

前言

資料處理

jieba庫

wordcloud庫

製作詞雲圖

心形詞雲

程式碼

相關推薦