使用nodeJS寫一個簡單的小爬蟲

阿新 • • 發佈：2018-12-25

需要安裝的依賴：

requset

使用request向需要爬取的網站發起一個請求，在回撥裡使用body接收資料

我選取百度相簿，作為本次爬取的網站

使用百度搜素二次元萌妹子，然後在位址列裡將URL複製下來

const request = require('request');

const options = {
    method: "GET",
    url: "https://image.baidu.com/search/index?isource=infinity&iname=baidu&tn=baiduimage&word=%E4%BA%8C%E6%AC%A1%E5%85%83%E8%90%8C%E5%A6%B9" 
,
    headers:{
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }
}
//先列印一下，看看是否抓取到了資料
requset(options,(err,res,body)=>{
    console.log(err);
    console.log(res.statusCode);
    console.log(body);
})
複製程式碼

當看到控制檯輸出一大串資訊後（網頁原始碼），且沒有報錯，statusCode返回200，說明正確請求到了資料。

接著，我們需要對資料，進行處理（對返回的資料，進行分析，拿到我們想要的資料，這裡我們想要得到資料是圖片的URL地址）。

處理資料的方式：

正則表示式

作為一個程式設計師，處理字串，首先想到的當然是正則了

使用正則去匹配data-url

const request = require('request');

const options = {
    method: "GET",
    url: "https://image.baidu.com/search/index?isource=infinity&iname=baidu&tn=baiduimage&word=%E4%BA%8C%E6%AC%A1%E5%85%83%E8%90%8C%E5%A6%B9" 
,
    headers:{
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }
}
//先列印一下，看看是否抓取到了資料
request(options,(err,res,body)=>{
    const reg = /thumbURL":"https?:\/\/.+?&gp=0.jpg/ig;
    const urlArr = body.match(reg);
    const msgArr = [];
    urlArr.forEach(( val,idx ) => {
        const reg = /https?:\/\/.+?&gp=0.jpg/;
        msgArr.push(val.match(reg)[0]);
    })
    console.log(msgArr);
})
複製程式碼

匹配成功！！！我們試著點選一下，能否訪問

就很棒，抓到的資料，沒有問題

接著，我們嘗試著將圖片下載下來

//想要下載圖片，就必須請求圖片的地址
//訪問到圖片的靜態資源後，使用管道流儲存到檔案中
//因為I/O操作是非同步的，所以使用Promise將程式碼改寫一下
const request = require('request');
const fs = require('fs');//寫入檔案，需要匯入fs模組
const options = {
    method: "GET",
    url: "https://image.baidu.com/search/index?isource=infinity&iname=baidu&tn=baiduimage&word=%E4%BA%8C%E6%AC%A1%E5%85%83%E8%90%8C%E5%A6%B9",
    headers:{
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }
}

new Promise(( res,rej ) => {
    request(options,( err,response,body ) => {
        const reg = /thumbURL":"https?:\/\/.+?&gp=0.jpg/ig;
        const urlArr = body.match(reg);
        const msgArr = [];
        urlArr.forEach(( val,idx ) => {
            const reg = /https?:\/\/.+?&gp=0.jpg/;
            msgArr.push(val.match(reg)[0]);
        })
        res(msgArr);
    })
}).then( msgArr => {
    msgArr.forEach(( val,idx ) => {
        request(val).pipe(fs.createWriteStream("./img/"+idx+".jpg"));
    })
})

複製程式碼

此時開啟資料夾，可以看到圖片已經下載成功！

使用正則，可以解析使用JS渲染的頁面，如果發起請求後，body接收的資料返回的是一個頁面結構，則可以使用以下兩個npm包：

jsdom
cheerio

jsdom可以將資料解析成DOM結構，cheerio則將資料包裝成jQuery

以百度搜索為例，如果要抓取搜尋結果的標題內容和連結

//
const request = require("request")
const {JSDOM} = require("jsdom")
//const cheerio = require("cheerio")

const word = encodeURI("二次元萌妹")
request({
    url : "https://www.baidu.com/s?wd="+word,
    headers:{
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }
},(err,response,body)=>{
    if(err)throw err;
    if( response.statusCode >=200 && response.statusCode<300 ){
        //JSDOM處理body
        let {window} = new JSDOM(body);
        let aDOM = window.document.querySelectorAll("h3.t a");
        [...aDOM].forEach(ele => {
            console.log(ele.text,ele.href);
        })

        //cheerio處理body
        /*let $ = cheerio.load(body);
        $("h3.t a").each((i,ele)=>{
            console.log($(ele).attr("href"));
            console.log($(ele).text());
        })*/
    }
});

複製程式碼

得到的結果

可以看到操作十分簡便，但是如果資料量大，這種方法效能不佳

使用nodeJS寫一個簡單的小爬蟲

需要安裝的依賴： requset 使用request向需要爬取的網站發起一個請求，在回撥裡使用body接收資料我選取百度相簿，作為本次爬取的網站使用百度搜素二次元萌妹子，然後在位址列裡將URL複製下來 const request = require('request'); const

【轉】寫一個簡單的爬蟲來批量爬取新浪網的新聞

工具：Anaconda 先進入該頁，新浪新聞：http://news.sina.com.cn/china/ 往下翻，找到這樣的最新訊息先爬取單個頁面的資訊：（隨便點一個進去），該新聞網址：http://news.sina.com.cn/c/nd/2018-06-08/doc-ihcscwxa1

用Nodejs實現一個簡單的爬蟲功能。（ES6標準）

Nodejs版本：v10.11.0 依賴模組：express，superagent，cheerio 程式碼： const express = require('express'); const superagent = require('superagent'); co

用Python寫一個簡單的爬蟲

和朋友都灰常懶，不想上下滾動頁面看價格，所以寫了一個爬蟲，用於儲存商品價格。環境：macOS、python3.5 IDE：pycharm 使用的庫：BeautifulSoup、urllib BeautifulSoup：優秀的HTML/XML的解析

用python寫一個簡單的爬蟲功能

iOS開發如果之前沒接觸過除了c和c++(c++太難了,不花個十來年基本不可能精通)的語言,第二門語言最好的選擇就是python.原因就是 1.語法簡單 2.庫太多,隨便想要什麼功能的庫都找得到,簡直程式設計界的哆啦A夢. 3.語法優美,不信?你去看看py

用python寫一個簡單的爬蟲儲存在json檔案中

學習python沒多久，所以只能寫一個很簡單的爬蟲啦~~ 我使用annacada 自帶的spyder來寫爬蟲的，這次我們要爬取得網站是http://www.drugbank.ca/drugs, 主要是爬取裡面每種藥物的資訊到json檔案中，包括有 DrugBank ID,

用C語言寫一個簡單的掃雷小遊戲

#define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <windows.h> #include <time.h> /* 用 C 語言寫一個簡單的掃雷遊戲 */ // 1.寫一個遊戲選單 M

用webmagic寫一個簡單的網路爬蟲

用webmagic寫一個網路爬蟲（不是註解）引入的jar包：具體程式碼如下： import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; import

入門級用Python寫一個簡單的網路爬蟲下載和獲取資料

學會如何使用API通過url(Uniform Resource Locator 統一資源定位符)連線網路,獲取網站的API獲取url儲存的API，request執行獲取的urlrequests.get(url) 定義一個變數，將API響應儲存在裡面，呼叫json將r儲存的ap

linux設備驅動第三篇：寫一個簡單的字符設備驅動

提示 copy flags 驅動程序相關 clas open ugo param 在linux設備驅動第一篇：設備驅動程序簡介中簡單介紹了字符驅動，本篇簡單介紹如何寫一個簡單的字符設備驅動。本篇借鑒LDD中的源碼，實現一個與硬件設備無關的字符設備驅動，僅僅操

采用jsp頁面與java代碼分離的方式寫一個簡單的二維表

color arraylist 一個 3-9 業務動態顯示復雜分層架構方式前提:在我們做程序時追求的是高內聚，低耦合，但是如果我們把jsp頁面的的代碼和java的代碼都放在了jsp的代碼編寫中，使java和jsp高耦合這樣的話不僅使jsp代碼頁面顯得很復雜，而

寫一個簡單的導航

utf-8 mar title shee 小圖標 list .cn display left 制作一個如下圖的導航按鈕。當鼠標移入導航欄的首頁，商店等字體時，前面的小圖標和字顏色一起變紅！代碼如下： <meta charset="UTF-8"> <

python寫一個簡單的接口

結果服務 web框架簡單的 bsp 16px 這樣的 flask span 寫一個接口： 1、用到的模塊是flask，flask是一個python的一個web框架，可以用來開發接口和web頁面 2、啟動服務的效果是這樣的：用postman測試的結

寫一個簡單的JQ插件(例子)

ont ava 兼容 app js代碼 lsp 是把生成 order 雖然現在 vue angular react 當道啊但是那 JQ還是有一席之地很多很多的小單位啊.其實還會用到我也放一個例子吧雖然我也不是很肯定有沒有人寫的比我更好啊但是我相信我這個還是蠻實用的話不

用集合寫一個簡單的隨機分組，以及集合內元素數量查詢

移除以及表示元素 move spa color 查詢 println 12個人，隨機分為4組 public static void main(String[] args) { List list = new ArrayList();

【python學習】使用python寫一個2048小遊戲

ast stc 遊戲多少 wan nbsp 小遊戲效果參考個人博客：jerwang.cn 沒有參考其他代碼,效果圖：話不多少，源代碼： https://github.com/jerustc/Python/blob/master/2048.py【python學

寫一個簡單的struts2

return 簡單的 index taglib struts2 text apach prepare mil 導包：struts2-core-2.5.1 寫action類， package web; public class HelloWorldAction {

寫一個簡單的servlet

打開 lips cli 簡單找不到 -m 輸入12 右下角 dex 昨天寫完hibernate的小demo後，想寫一個簡單structs2，但是發現好像自己連servlet都忘了怎麽寫了，所以一切從頭開始，先寫一個簡單servlet把第一步肯定是建立項目了，打開自己e

寫一個簡單的配置文件和日誌管理（shell）

客戶端數據時間 r+ socket編程 har stdout scan 語言最近在做一個Linux系統方案的設計，寫了一個之前升級服務程序的配置和日誌管理。共4個文件，服務端一個UpdateServer.conf配置文件和一個UpdateServer腳本，客戶端一個

【轉】使用webmagic搭建一個簡單的爬蟲

class 直接了解 pid 個數粘貼 body 教程相關配置【轉】使用webmagic搭建一個簡單的爬蟲剛剛接觸爬蟲，聽說webmagic很不錯，於是就了解了一下。 webmagic的是一個無須配置、便於二次開發的爬蟲框架，它提供簡單靈活的API，只需少量代碼

使用nodeJS寫一個簡單的小爬蟲

相關推薦