nodejs爬蟲抓取搜狗微信文章詳解

阿新 • • 發佈：2019-01-15

成果

展示地址

使用模組

async -- 非同步流程控制基本使用
request -- 抓取網站模組官網
cheerio -- 處理html模組官網

思路

爬取的思路 : 從搜尋開始 -> 進入公眾號文章列表頁面 -> 再分別訪問每篇文章 ->同時ajax獲取點贊量,閱讀量等資訊. 因為公眾號文章列表和文章內容頁的url都是臨時連結,大概是2個小時過期,所以每次都需要從搜尋開始爬取.

程式碼說明一

app.js是主檔案,npm install 後 node app 就可以啟動爬蟲任務,測試是支付寶公眾號,爬取了最近5篇文章;

var ut = require('./common.js');
var async = require('async');
console.log('開始測試!!!')
var public_num = '支付寶';
//任務陣列
var task = [];
//根據public_num搜尋公眾號,最好是微訊號或者微信全名.
task.push(function (callback) {
  ut.search_wechat(public_num, callback)
});
//根據url獲取公眾號獲取最後10條圖文列表
task.push(function (url, callback) {
  ut.look_wechat_by_url(url, callback)
})
//根據圖文url獲取詳細資訊,釋出日期,作者,公眾號,閱讀量,點贊量等
task.push(function (article_titles, article_urls, article_pub_times, callback) {
  ut.get_info_by_url(article_titles, article_urls, article_pub_times, callback)
})
//執行任務
async.waterfall(task, function (err, result) {
  if (err) return console.log(err);
  console.log(result);
})

程式碼說明二

從app.js能看出呼叫了3個方法,分別是search_wechat, look_wechat_by_url, get_info_by_url common.js就是實現了這3個方法,和需要呼叫的其他方法.

爬蟲第一步

首先就是根據提供的微訊號.搜尋公眾號,獲取公眾號列表 -- common.js裡的 search_wechat 方法得到公眾號的臨時URL

爬蟲第二步

訪問臨時的公眾號URL -- common.js裡的look_wechat_by_url 方法,得到最近10條圖文訊息列表,注意這裡搜狗微信做了反爬蟲機制,經常出現驗證碼,程式碼中需要破解驗證碼,nodejs識別驗證碼暫時沒找到好用的模組,

我使用的是第三方介面實現的.授權碼已遮蔽. 所有文章資料在JS程式碼中,通過正則獲取. match(/var msgList = ({.+}}]});?/) ,分析資料結構, 重組成自己需要的資料結構.

爬蟲第三步

根據圖文url獲取詳細資訊,釋出日期,作者,公眾號,閱讀量,點贊量等 -- common.js裡的 get_info_by_url方法
其中,閱讀量和點贊量是ajax獲取的,微信文章的永久連結,看程式碼,就不寫明瞭.

nodejs爬蟲抓取搜狗微信文章詳解

成果

使用模組

思路

程式碼說明一

程式碼說明二

爬蟲第一步

爬蟲第二步

爬蟲第三步

nodejs爬蟲抓取搜狗微信文章詳解

【學習】06 爬蟲使用代理地址爬取搜狗微信文章

第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號

知網摘要作者資訊爬取和搜狗微信、搜狗新聞的爬蟲

搜狗微信公眾號文章抓取

基於搜狗微信的公眾號文章爬蟲

python3 爬蟲實戰：用 Appium 抓取手機 app 微信的資料

NodeJs爬蟲抓取古代典籍，共計16000個頁面心得體會總結及項目分享

python爬搜狗微信獲取指定微信公眾號的文章

利用python抓取搜狗指數學習筆記

基於scrapy的分散式爬蟲抓取新浪微博個人資訊和微博內容存入MySQL

nodejs爬蟲抓取非同步資料案例

最新python爬蟲抓取新浪微博千萬級資料，scrapy思路+架構+原始碼

python爬蟲-- 抓取網頁、圖片、文章

webMagic爬蟲抓取某個部落格全部文章名稱

php抓取頁面的幾種方法詳解

layabox 完成微信排行榜詳解（進行中）

Android第三方繫結微信登入詳解

（轉）微信小程式API——微信支付詳解（順便講一下我遇見的坑）

Android 微信支付詳解與Demo

nodejs爬蟲抓取搜狗微信文章詳解

成果

使用模組

思路

程式碼說明一

程式碼說明二

爬蟲第一步

爬蟲第二步

爬蟲第三步

相關推薦