1. 程式人生 > >微信公眾號的文章爬取有三種方式

微信公眾號的文章爬取有三種方式

runner 思路 class 目標 rdquo 創建時間 利用 歷史 三種


a. 通過微信訂閱號在發布文章,可以查找公眾號的文章,方式見微信鏈接。,閱讀數、點贊數、評論數仍無法抓取。

b. 通過搜狗微信搜索微信公眾號,但是文章篇幅仍然後有限制,點贊、閱讀數、和評論數無法抓取。

c. 通過“中間人方式”對數據進行攔截,過濾解析後進行抓取。

這裏就時利用第三種c方式對數據進行抓取。

思路:

1. 安裝代理AnProxy,在手機端安裝CA證書,啟動代理,設置手機代理;

2. 獲取目標微信公眾號的__biz;

3. 進入微信公眾號的歷史頁面;

4. 使用Monkeyrunner控制滑屏;獲取更多的歷史消息;

5. 記錄文章標題,摘要,創建時間,創作類型,地址等等;

6. 文章列表獲取完成後,利用Monkeyrunner進入文章的列表,

7. 記錄文章的閱讀數,點贊數,評論數等;

8. 重復以上操作。

微信公眾號的文章爬取有三種方式