1. 程式人生 > >微信公眾號訂閱號留言點贊採集抓取爬蟲

微信公眾號訂閱號留言點贊採集抓取爬蟲

微信小程式公眾號訂閱號,歷史熱門文章內容,留言閱讀數量點贊數量等資料都可以採集抓取,怎樣做?方法會很難嗎?楚江資料 p02721606 給你幾個微信公眾號爬蟲,微信資料採集爬取so easy!
1.基於搜狗微信搜尋的微信公眾號爬蟲
a.專案地址:https://github.com/Chyroc/WechatSogou
b.基於搜狗微信搜尋的微信公眾號爬蟲介面開發,可獲取文章的臨時連結,獲取微信公眾號的最近10篇文章
2.微信公眾號爬蟲 (基於中間人攻擊的爬蟲核心實現,支援批量爬取公眾號所有歷史文章)
a.專案地址:https://github.com/sundy-li/wechat_spider
b.通過Man-In-Middle 代理方式獲取微信服務端返回,自動模擬請求自動分頁,抓取對應點選的所有歷史文章


3.使用Python實現的微信公眾號爬蟲
a.專案地址:https://github.com/bowenpay/wechat-spider
4.爬取指定微信公眾號的全部歷史文章,使用 JS 實現
a.專案地址:https://github.com/iamyy/wechat-spider
b.目前需要手動獲取 cookie 等驗證資訊
5.基於搜狗微信入口的微信爬蟲程式,使用Python實現。  
a.專案地址:https://github.com/CoolWell/wechat_spider
b.由基於phantomjs的python實現。使用了收費的動態代理。 採集包括文章文字、閱讀數、點贊數、評論以及評論贊數。 效率:500公眾號/小時。根據採集的公眾號劃分為多執行緒,可
以實現並行採集。

訪問介面需要的引數:
uin : 使用者對於公眾號的唯一ID, 本來是一個數字, 傳的是base64之後的結果;
key : 與公眾號和uin繫結, 過期時間大概是半小時;
pass_ticket: 另外一個驗證碼, 與uin進行繫結;
req_id: 在文章裡HTML裡, 每次請求會不一樣, 用來構成獲取閱讀點贊介面的 RequestBody, 一次有效;
獲取閱讀點贊介面有頻率限制, 測試的結果是一個微訊號5分鐘可以檢視30篇文章的閱讀點贊
楚江資料 有更多網際網路網站app資料採集,爬蟲開發技巧及思路,資料、圖片批量採集服務!歡迎交流,淘寶搜尋店鋪“楚江資料”。