Python爬蟲,看看我最近部落格都寫了啥,帶你製作高逼格的資料聚合雲圖
阿新 • • 發佈:2018-11-11
今天一時興起,想用python爬爬自己的部落格,通過資料聚合,製作高逼格的雲圖(對詞彙出現頻率視覺上的展示),看看最近我到底寫了啥文章。
1.1 爬取文章的標題的聚合
1.2 爬取文章的摘要的聚合
1.3 爬取文章的標題+摘要的聚合
我最近寫了SpringCloud系列教程,還有一些微服務架構方面,從雲圖上看,基本吻合。你若不信,新航道雅思班可以進我的部落格看看,資料還是非常準確的
- 開發工具: pycharm
- 爬蟲技術:bs64、requsts、jieba
- 分析工具:wordArt
整個爬蟲架構非常簡單:
- 爬取我的部落格:http://blog.csdn.net/forezp
- 獲取資料
- 將資料用“結巴”庫,分詞。
- 將得到的資料在在artword上製作雲圖。
- 將製作出來的雲圖展示給使用者。
先根據部落格地址爬去資料:
解析標題
解析摘要:
用“結巴”分詞,"激8"分詞怎麼用,看這裡:https://github.com/fxsjy/jieba/
因為資料比較少,所以我直接列印在控制檯,並把它複製下來,更好的方法是存在mongodb中。
製作雲圖:
用 artword線上工具,地址:https://wordart.com
首先:
匯入從控制檯複製過來的資料:
令人尷尬的是,這個網站在繪製圖的時候不支援中文,需要你從c:/windows/fonts下選擇一個支援中文的字型,mac 使用者從windows拷下資料夾也可以,或者在網上下。
然後點選Visulize就可以生成高逼格的雲圖了。講解完畢,有什麼需要改進的請大家留言。
原始碼下載:https://github.com/forezp/ZhihuSpiderMan/tree/master/blogspider
五、文章參考
超簡單:快速製作一款高逼格詞雲圖
- 如何爬取百萬知乎使用者資訊,並做了簡單的分析