基於nodejs爬蟲

阿新 • • 發佈：2018-11-28

爬介面資料

var https = require('https');
https.get('https://api.readhub.cn/topic?lastCursor=76823&pageSize=20',function(res,req){
var html='';
    res.on('data',function(data){
        html+=data;
    });
    res.on('end',function(){
        console.info(html);
})
console.log(html);
})

爬頁面資料

var https = require('https');
const hupuUrl = 'https://bbs.hupu.com/selfie';
https.get(hupuUrl,function(res,req){
var html='';
    res.on('data',function(data){
        html+=data;
    });
    res.on('end',function(){
        console.info(html);
})
console.log(html);
})

另一種方式：
SuperAgent
superagent它是一個強大並且可讀性很好的輕量級ajaxAPI，是一個關於HTTP方面的一個庫，而且它可以將鏈式寫法玩的出神入化
api res.text包含為被解析的響應資料

var superagent = require('superagent');
superagent .get('/api') //這裡的URL也可以是絕對路徑 
.end(function(req,res){ 
//do something 
//res.text包含為被解析的響應資料
})

superagent .get('/api') 
.set({ 'Referer':'https://www.google.com', 'Accept':'image/webp,image/*,*/*;q=0.8' })
 .end(function(req,res){ //do something })

cheerio
用法jQuery的用法差不多。
就是先將頁面的資料load進來形成一個特定的資料格式，然後通過類似jq的語法，對資料進行解析處理）

var cheerio = require('cheerio'), 
$ = cheerio.load('<h2 class="title">Hello world</h2>');
 $('h2.title').text('Hello there!'); 
$('h2').addClass('welcome');


var superagent = require('superagent');
var cheerio = require('cheerio');

var url1 = 'https://www.dbmeinv.com/'
//這裡的URL也可以是絕對路徑
superagent.get(url1)
.end(function(req,res){
//do something
    console.log(res.text)

    $ = cheerio.load(res.text);
    console.log($('.height_min').length)
    $('.height_min').each(function(v,key){
        console.log(v,$(key).attr('src'));
    })


})

使用SuperAgent 和 cheerio具體例子
先安裝兩個模組
npm i SuperAgent -S
npm i cheerio -S

var superagent = require('superagent');//引入superagent模組
var cheerio = require('cheerio');//引入cheerio模組
superagent .get('https://www.dbmeinv.com') //這裡的URL也可以是絕對路徑 
.end(function(req,res){ 
//do something 
//res.text包含為被解析的響應資料
console.log(res.text);
$ = cheerio.load(res.text);
$('.height_min').each(function(index,value){//找到頁面中你想要的資料的類名.height_min，這裡是圖片的類名
    var src = $(value).attr('src');
    console.log(src);
})
})

基於nodejs爬蟲

爬介面資料 var https = require('https'); https.get('https://api.readhub.cn/topic?lastCursor=76823&pageSize=20',function(res,req){ var html='';

基於nodejs爬蟲程式下載

node-crawler一個基於nodejs的網站採集伺服器可部署在任何伺服器上遠端呼叫DEMO傳送請求 run npm dev POST: /scan{ "url": "http://www.charlotterusse.com/shoes/shop-all-sh

基於nodejs 的多頁面爬蟲

pan 圖片 idt 鏈接地址 pri limit all 服務 create 前言前端時間再回顧了一下node.js，於是順勢做了一個爬蟲來加深自己對node的理解。主要用的到是request，cheerio，async三個模塊 request 用於請求地址和快速下

基於nodejs的網路圖片爬蟲

這是我研究nodejs爬蟲後寫的一個圖片爬蟲小例子。不過功能還是挺強大的可以將你喜歡的圖片下載下來。主要的爬蟲程式碼： //var http = require('https'); var http = require('http'); var fs =

【nodeJS爬蟲】前端爬蟲系列

取數能夠 bsp blank 介紹數據 ports exports 時間段寫這篇 blog 其實一開始我是拒絕的，因為爬蟲爬的就是cnblog博客園。搞不好編輯看到了就把我的賬號給封了：）。言歸正傳，前端同學可能向來對爬蟲不是很感冒，覺得爬蟲需要用偏後端的語言，

nodejs爬蟲入門

ava child 關註命名 .json filename body nod 下載圖片 nodejs是服務器端的語言，所以可以像python一樣對網站進行爬取。準備 1.項目初始化，執行npm init,來初始化package.json 2.npm insta

nodejs爬蟲筆記（三）

target ole n+2 如何獲取利用 mod git brush 所有思路：通過筆記（二）中代理的設置，已經可以對YouTube的信息進行爬取了，這幾天想著爬取網站下的視頻信息。通過分析YouTube，可以從訂閱號入手，先選擇幾個訂閱號，然後爬取訂閱號裏面的視頻分

nodejs爬蟲筆記(五)---利用nightmare模擬點擊下一頁

結果 lis out 類名 author 技術分享日期 ext lan 目標　　以騰訊滾動新聞為例，利用nightmare模擬點擊下一頁，爬取所有頁面的信息。首先得感謝node社區godghdai的幫助，開始接觸不太熟悉nightmare，感覺很高大上，自己寫代碼的時候

基於nodejs+express+mysql+webstorm+html的增刪改查

input expr each exports 文章 rec index edi console 一、工具準備　　Nodejs框架,WebStorm、Mysql服務、Navicat。此篇文章只講項目的搭建過程，至於Nodejs，WebStorm、Mysql的下載、安裝與配

nodejs爬蟲selenium

爬蟲 popu sub frame切換 cli let 完成 list value 6、元素操作查找元素使用操作如何找到頁面元素Webdriver的findElement方法可以用來找到頁面的某個元素，最常用的方法是用id和name查找。下面介紹幾種比較常用的方法。

NodeJs爬蟲抓取古代典籍，共計16000個頁面心得體會總結及項目分享

star 完成這樣的過程優點 header 時間 eof ssi 項目技術細節項目大量用到了 ES7 的async 函數, 更直觀的反應程序了的流程。為了方便，在對數據遍歷的過程中直接使用了著名的async這個庫，所以不可避免的還是用到了回調promise

簡單實現nodejs爬蟲工具

headers 被拒絕被拒 jee windows agent 網頁模塊 require 約30行代碼實現一個簡單nodejs爬蟲工具，定時抓取網頁數據。使用npm模塊 request---簡單http請求客戶端。（輕量級） fs---nodejs文件模塊。

在CentOS上搭建基於Nodejs的Ghost博客

Ghost 博客 nodejs 博客系統 Ghost介紹 Ghost 是基於 Node.js 構建的開源博客平臺。Ghost 具有易用的書寫界面和體驗，博客內容默認采用Markdown 語法書寫。Ghost 的目標是取代臃腫的 Wordpress。搭建Ghost博客系統 1、本機測試環境

基於NodeJS+Express+mongoDB+Bootstrap的全棧式工程化開發前後端分離博客系統實戰

後臺管理課程簡介命令查看 node.js 全棧 b+ 博客代碼課程目標本課程通過一個完整的項目，讓學員了解如何使用Jade+Node.js+Express+mongoDB+Bower+Gulp+Yeoman的組合開發Web應用。可以讓學員更深入地掌握Node.js

http-server 基於nodejs的http服務器

star 可能 agent int get text exists tar display http-server所用場景：作為前端的同學來說，想要運行一段代碼，但又沒有必要使用tomcat或是Apache http server,這個時候，一個簡單的輕量的ht

成都58同城快速租房的爬蟲，nodeJS爬蟲

保存自定義租房子 conf flex 找到安裝 req 獲得我個人還是非常奉行 talk is cheap, show me your code 這個理念的。只希望能夠幫助到真正需要的人，幫你快速找到物美價廉的房子。我也是租房子的時候，希望快速找到自己覺得不錯又

foy: 輕量級的基於 nodejs 的通用 build 工具

npm 的 scripts 下寫的命令太多就很容易很亂，各種第三方輪子都只能解決一部分問題，總感覺不是很好用，想找個類似 make 的工具只能找到 jake, 可是 jake 的 API 太老，居然很多都不支援 promise, 程式碼也不多，就乾脆自己造輪子了, 感覺效果還行。特點: 基於 pr

基於python3爬蟲的對12306餘票查詢的圖形介面

學了爬蟲也有將近四個月了，寫過的爬蟲也有蠻多的。最近剛要開學，學生來校大多坐火車來，就尋思做一個餘票查詢的小工具，順帶溫習一下所學的爬蟲知識還有對python程式設計的一些用法，將從12306網上爬取到達實時資料做成圖形介面，以下便是我的小工具的vers

基於nodejs做一個簡單的http/web伺服器

建立專案環境，執行下面的命令 cd d: mkdir webapp cd webapp npm install http npm install fs npm install querystring 目錄結構服務端程式碼 app.js /** * we

【原創】基於NodeJS Express框架開發的一個VIP視訊網站專案及原始碼分享

專案名稱：視訊網站專案開發語言：HTML，CSS（前端），JavaScript，NODEJS（expres）（後臺）資料庫：MySQL 開發環境：Win7，Webstorm 上線部署環境：Linux伺服器主要功能我們先來看一下最終的效果：使用者主頁的搭建：實現了主頁輪播圖的顯示和切換，使用者可以從

基於nodejs爬蟲

相關推薦