簡單實現nodejs爬蟲工具
阿新 • • 發佈:2018-03-11
headers 被拒絕 被拒 jee windows agent 網頁 模塊 require
約30行代碼實現一個簡單nodejs爬蟲工具,定時抓取網頁數據。
使用npm模塊
request---簡單http請求客戶端。(輕量級) fs---nodejs文件模塊。 index.jsvar request = require(‘request‘); var fs = require("fs"); var JJurl = "https://recommender-api-ms.juejin.im/v1/get_recommended_entry?suid=6bYFY7IRbfmijiJeeeIQ&ab=welcome_3&src=web" var title = "" varoptions = { uri: JJurl, headers: { ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36‘, }, json: true }; setInterval(function() { request(options, function(error, response, body) { if (!error) {for (var i in body.d) { title += body.d[i].title + "\n" } fs.writeFile(‘./result.txt‘, title, function(err) { if (err) { throw err; } }); } else { console.log(‘抓取失敗‘) } }); },5000);
PS: 建議設置用戶代理。防止請求被拒絕。
簡單實現nodejs爬蟲工具