node.js爬蟲框架node-crawler初體驗

阿新 • • 發佈：2020-10-30

百度爬蟲這個詞語，一般出現的都是python相關的資料。

py也有很多爬蟲框架，比如scrapy，Portia，Crawley等。

之前我個人更喜歡用C#做爬蟲。

隨著對nodejs的熟悉。發現做這種事情還是用指令碼語言適合多了，至少不用寫那麼多的實體類。而且指令碼一般使用比較簡單。　　

在github上搜索node+spider，排名第一的就是node-crawler

github:https://github.com/bda-research/node-crawler

簡單使用

npm 安裝：

npm install crawler

new一個crawler物件

var c = new Crawler({
 // 在每個請求處理完畢後將呼叫此回撥函式
 callback : function (error,res,done) {
  if(error){
   console.log(error);
  }else{
   var $ = res.$;
   // $ 預設為 Cheerio 解析器
   // 它是核心jQuery的精簡實現，可以按照jQuery選擇器語法快速提取DOM元素
   console.log($("title").text());
  }
  done();
 }
});

然後往crawler佇列裡面不停的加url就行了，

// 將一個URL加入請求佇列，並使用預設回撥函式
c.queue('http://www.amazon.com');

// 將多個URL加入請求佇列
c.queue(['http://www.google.com/','http://www.yahoo.com']);

控制併發速度

爬蟲框架一般都是同時去爬多個頁面，但是速度過快會觸發目標網站的反爬蟲機制，也同時影響別人網站的效能。

控制最大的併發數量

var c = new Crawler({
 // 最大併發數預設為10
 maxConnections : 1,callback : function (error,done) {
  if(error){
   console.log(error);
  }else{
   var $ = res.$;
   console.log($("title").text());
  }
  done();
 }
});

使用慢速模式

使用引數rateLimit啟用慢速模式，兩次請求之間會閒置rateLimit毫秒，而maxConnections將被強行修改為 1 。

var c = new Crawler({
 // `maxConnections` 將被強制修改為 1
 maxConnections : 10,// 兩次請求之間將閒置1000ms
 rateLimit: 1000,done) {
  if(error){
   console.log(error);
  }else{
   var $ = res.$;
   console.log($("title").text());
  }
  done();
 }
});

下載圖片等靜態檔案

var c = new Crawler({
 encoding:null,jQuery:false,// set false to suppress warning message.
 callback:function(err,done){
  if(err){
   console.error(err.stack);
  }else{
   fs.createWriteStream(res.options.filename).write(res.body);
  }
  
  done();
 }
});

c.queue({
 uri:"https://nodejs.org/static/images/logos/nodejs-1920x1200.png",filename:"nodejs-1920x1200.png"
});

以上就是node.js爬蟲框架node-crawler初體驗的詳細內容，更多關於爬蟲框架node-crawler的資料請關注我們其它相關文章！

node.js爬蟲框架node-crawler初體驗

百度爬蟲這個詞語，一般出現的都是python相關的資料。 py也有很多爬蟲框架，比如scrapy，Portia，Crawley等。

使用Node.js爬蟲儲存MySQL資料庫

第一次使用node爬蟲，發帖記錄下 1.在MySQL中新建book資料庫，建立book表 2.建立index.js，使用npm安裝匯入模組：mysql、axios、cheerio、request、iconv-lite

node.js express框架實現檔案上傳與下載功能例項詳解

本文例項講述了node.js express框架實現檔案上傳與下載功能。分享給大家供大家參考，具體如下：

Node.js Express框架

Node.js Express框架參考https://www.runoob.com/nodejs/nodejs-express-framework.html Express核心特性：

Node.js開發框架Express4.x

技術標籤：Node.jsnodejs 建立express專案建立專案 express -e nodejs-demo進入專案目錄，建立package-lock.json cd nodejs-demo && npm install啟動專案 npm start

Ajax 的初步實現(使用vscode+node.js+express框架)

需求：點選按鈕向服務端傳送一個請求然後將服務端返回的響應體結果在一個div中呈現出來同時頁面不重新整理

Python爬蟲：第一次初體驗

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

【Node.js】原生Node操作MySQL

原生Node操作MySQL 初始化專案 npminit -y 下載mysql模組 npm install mysql (1) 請求模組 const mysql=require(\"mysql\")

Node.js 8+之後node-inspector報錯如何解決

在Nodejs升級到8.0之後安裝 $ npm install -g node-inspector 會提示報錯，由此去node-inspector的討論區找了問題的解決方案。果然在討論區發現同樣問題的產生，及如何解決的過程，連結地址https://github.com/nod

node.js初體驗

1.node是什麼 Node.js® is a JavaScript runtime built onChrome\'s V8 JavaScript engine. Node.js 是一個基於 Chrome V8 引擎的 JavaScript 執行環境。

Node.js 蠶食計劃（七）—— MongoDB + GraphQL + Vue 初體驗

首先需要搭建一個簡單的應用前端部分不多贅述，如果確實沒接觸過 Vue 專案，可以參考我的《Vue 爬坑之路》系列

node.js連結MongoDB資料庫初體驗之新增一條資料

技術標籤：node.jsnode.jsmongodbjavascript 入門教程連結：https://www.runoob.com/mongodb/mongodb-window-install.html

(一) 《Nest.js：漸進式node.js框架》介紹

Nestjs 是一個構建在Node.js Express伺服器之上的現代Web框架。利用現代ES6 JavaScript提供的強大靈活性和TypeScript在編譯期間強制實現型別安全，將可擴充套件的Node.js伺服器提升到一個全新的水平。Nest將三種不同

使用node.js做爬蟲

本文整理自你不知道的 node 爬蟲原來這麼簡單環境：cheerio，用來解析html 安裝命令：npm install cheerio

node初體驗完成前後端資訊傳遞，訪問資料庫

1.建立資料夾service 2.shift+右鍵開啟powershell 3.進入資料夾並初始化 4.檢視內容安裝express包

Demo-Node.js：Node.js 寫爬蟲

ylbtech-Demo-Node.js：Node.js 寫爬蟲 1.返回頂部 1、你不知道的node爬蟲原來這麼簡單

Node.js 學習筆記之五：使用 Express 框架

這部分示例將通過你好，Express、留言板和學生管理三個應用的實現來演示Express框架的基本使用。首先來搭建該示例專案的基本腳手架，為此我們需要在code目錄下執行mkdir 07_Expressjs命令來建立用於存放這一組示例的

阿里雲體驗實驗室教你《搭建Node.js程式設計環境》

體驗平臺簡介阿里雲開發者實驗室提供免費雲資源和豐富的場景化實踐，旨在幫助開發者在學習應用技術，瞭解阿里雲產品的特性。

老呂教程--01後端Node.js框架搭建（安裝除錯KOA2）

------------恢復內容開始------------ 今天開始從零搭建後端框架，後端框架基於Koa2，通過Typescript語言編寫。

java爬蟲（七）使用node.js獲取network中api介面內的資訊

1.電腦安裝node.js　　點選官網傳送門 2.在瀏覽器中（我用了一個谷歌核心的瀏覽器）找到自己url api 右鍵-->copy-->copy as nodejs fetch

node.js爬蟲框架node-crawler初體驗

相關推薦