Python爬蟲實戰,nltk模組,實現推特資料視覺化分析
前言
今天為大家帶來的是視覺化分析一波推特,讓我們愉快地開始吧~
開發工具
** Python版本:**3.6.4
** 相關模組:**
nltk模組;
pandas模組;
wordcloud模組;
cutecharts模組;
以及一些Python自帶的模組。
環境搭建
安裝Python並新增到環境變數,pip安裝需要的相關模組即可。
視覺化分析
首先,我們要藉助panda庫讀取我們下載到的推特資料,並做一些必要的資料預處理工作。具體而言,程式碼實現如下:
'''讀取csv檔案'''
接著,我們就可以藉助cutecharts進行一些可愛的視覺化分析啦。首先,讓我們來看看每年都發了多少推特唄:
ta越來越享受"推特治國"了。而且這貨19年的時候怕是一天到晚都在發推特的節奏啊(感覺朋友圈的微商都做不到一年如一日地堅持每天發20多條朋友圈T_T)。
對了,上圖的原始碼如下,還是蠻簡單的:
'''折線圖'''
再來看看都是用哪些豪華的裝置來發推特的唄(只顯示用的最多的5個裝置):
再貼一下他用過的所有發推特的裝置吧:
Twitter for iPhone 15468
嚯,這貨的裝置還挺齊全。對了,上面的柱狀圖實現和折線圖類似,只需要把折線圖改成柱狀圖就行了:
chart = Bar(title)
接下來,我們再來看看比較喜歡在哪個時間段發推特吧:
真是個精力旺盛的ZT。T_T
再來看看每年在推特里次數唄:
cutecharts畫餅狀圖的程式碼實現如下:
def drawPie(title, data, savedir='results'):
再來簡單證實一下我的猜測:
再來看看媒體唄:
讓我們來看看榮登榜一的FOX是啥吧:
不多廢話,我還想看看發推特時對媒體的評價態度。為了畫的圖比較好看,我們這裡假設只要負面評價得分大於0.1的都算負面推特,然後正面評價得分大於0.2的都算正面推特:
這裡評分是利用python的nltk庫做的,不一定準。對了,畫雷達圖的程式碼實現如下:
'''雷達圖'''
最後,gei推特畫個詞雲吧:
文章到這裡就結束了,喜歡的朋友可以點波關注,
為了感謝讀者們,我想把我最近收藏的一些程式設計乾貨分享給大家,回饋每一個讀者,希望能幫到你們。
** 乾貨主要有:**
① 2000多本Python電子書(主流和經典的書籍應該都有了)
② Python標準庫資料(最全中文版)
③ 專案原始碼(四五十個有趣且經典的練手專案及原始碼)
④ Python基礎入門、爬蟲、web開發、大資料分析方面的視訊(適合小白學習)
⑤ Python學習路線圖(告別不入流的學習)
⑥ 兩天的Python爬蟲訓練營直播許可權
** All done~完整原始碼詳見個人簡介或者私信獲取相關檔案。。**