輪子：一個簡單的node爬蟲踩坑之路

阿新 • • 發佈：2018-12-30

一個簡單的node爬蟲踩坑之路

準備工作

最近在看爬蟲相關的文章，偶然想起來嘗試一下用node來實現一個簡單的爬蟲。但是爬別的多沒意思，當然是爬美女圖片啊。。。

這大概 node 裡面造的最多的輪子了。

於是，我選取了下面的地址：美女圖片戳我，簡單分析後，我的目標是通過爬取首頁的輪播圖，然後爬取輪播圖的直鏈後面的詳情大圖，並按照圖片名稱存到指定的資料夾中。
大致流程是下面這個樣子的：

爬取的大致流程

看起來挺簡單的，選用的技術方案是：

superagent: 請求庫
mkdirp: 建立資料夾
async: 控制併發請求
cheerio: Dom操作庫
fs: 內建核心檔案讀寫庫

最終的效果

原始碼：

// 關鍵在於理清非同步流程

'use strict'
let fs = require("fs");
let cheerio = require('cheerio');
let asyncQuene = require("async").queue;
let request = require('superagent');
require('superagent-charset')(request);

const config = {
    urlPre: 'http://www.zbjuran.com',
    indexUrl: 'http://www.zbjuran.com/mei/' 
,
    downloadConcurrent: 2, 
};

let getHtmlAsync = (url) => {
    return new Promise((resolve,reject) => {
        request.get(url).charset('gbk').end((err,res) => {
            err ? reject(err) : resolve(cheerio.load(res.text));
        })
    })
}

let dowloadImg = (albumList) => {
    console 
.log('開始下載圖片');
    const folder = './grils/';
    fs.existsSync(folder, status => {
        status ? '' : fs.mkdirSync(folder);
    })
    let downloadCount = 0;
    let queue = asyncQuene( ({ url: albumUrl, title: albumTitle},done) => {
        request.get(albumUrl).end(function (err, res) {
            if (err) {
                console.log(err);
                done();
            } else {
                fs.writeFile(`./${folder}/${albumTitle}-${++downloadCount}.jpg`, res.body, function (err) {
                    err ? console.log(err) : console.log(`${albumTitle}儲存一張`);
                    done();
                });
            }
        });
    },config.downloadConcurrent);

    queue.drain = () => {
        console.log('所有圖片已經下載');
    }

    let imgListTemp = [];
    albumList.forEach(function ({ title, imgList }) {
        console.log(title,imgList);
        imgList.forEach(function (url) {
            imgListTemp.push({ title: title, url: url });
        });
    });
    console.log('sssss',albumList,imgListTemp);
    queue.push(imgListTemp);//將所有任務加入佇列
}

let getIndexAsync = () => {
    return new Promise((resolve, reject) =>{
        console.log('進入主頁，開始獲取目標url');
        let targetUrl = [];
        let queue = asyncQuene(async (url, done) => {
            try {
                let $ = await getHtmlAsync(url);
                console.log(`成功獲取主頁${url}`);
                $('div.changeDiv a').each( (index,value) => {
                    targetUrl.push({
                        title: value.attribs.title,
                        url: `${config.urlPre}${value.attribs.href}`,
                        imgList: []
                    })
                });
            } catch (err) {
                console.log(`在訪問${url}出現以下錯誤：${err}`);
            }
            finally {
                done();
            }
        },config.downloadConcurrent);
        queue.drain = () => {
            console.log('已成功生成目標Url');
            resolve(targetUrl);
        }

        queue.push(config.indexUrl);
    })
}

let getTargetAsync = (targetUrl) => {
    return new Promise((resolve, reject) =>{
        console.log('進入目標頁，開始獲取目標url');
        let queue = asyncQuene(async ({ url: url, title: title, imgList },done) => {
            try {
                let $ = await getHtmlAsync(url);
                console.log(`成功獲取主頁${url}`);
                let imgLength = $('div.page > li').length - 3;
                $('div.picbox img').each( (index,value) => {
                    let imgSrcPath = value.attribs.src;
                    imgList.push(`${config.urlPre}${value.attribs.src}`);
                    for (let i = 0,length = imgLength; i < length; i++) {
                        if(i >= 1){
                            imgList.push(`${config.urlPre}${imgSrcPath.replace('-0','-'+i)}.jpg`);
                        }
                    }
                });
            } catch (err) {
                console.log(`在訪問${url}出現以下錯誤：${err}`);
            }
            finally {
                done();
            }
        },config.downloadConcurrent);

        queue.drain = () => {
            console.log('已成功獲取到所有圖片的Url');
            resolve(targetUrl);
        }

        queue.push(targetUrl);
    })
}


let spider = async () => {
    // let albumList = await getAlbumsAsync();//獲取所有畫冊URL
    // albumList = await getImageListAsync(albumList);//根據畫冊URL獲取畫冊裡的所有圖片URL
    // downloadImg(albumList);//下載畫冊裡面的所有圖片
    let targetUrl = await getIndexAsync();
    targetUrl = await getTargetAsync(targetUrl);
    dowloadImg(targetUrl);
}

spider();

劃重點

1.當爬取網頁編碼為 `gb2312`的網頁的時候，爬到的內容中文顯示是亂碼

這個問題的原因其實是挺清晰的，就是網頁編碼與本地編碼不一致或不支援引起的。以為只是個小問題，但是在找解決辦法的時候卻糾結了我很久，查詢了網上相關資料，有說使用 iconv 解碼decode一下就可以，然並卵，有說使用encoding的，其實也沒用。其實最後查閱資料得出的原因是，superagent只支援utf-8的編碼，如果需要支援其他的需要引用一個官方的庫：superagent-charset,使用方法如下：

const request = require('superagent');
require('superagent-charset')(request);
//請求
request.get('xxx').set('gbk').end(xxxxx)

如此，即可正常返回中文

2. 非同步操作用 async 來控制

對於下載圖片，訪問 url 這樣存在非同步的操作，如果操作對後面程式的執行有影響，最好使用 async 庫來控制非同步流程，類似的還有 eventproxy。

下面是一個使用來async來控制請求佇列的官網示例，

// create a queue object with concurrency 2
var q = async.queue(function(task, callback) {
    console.log('hello ' + task.name);
    callback();
}, 2);

// assign a callback
q.drain = function() {
    console.log('all items have been processed');
};

// add some items to the queue
q.push({name: 'foo'}, function(err) {
    console.log('finished processing foo');
});
q.push({name: 'bar'}, function (err) {
    console.log('finished processing bar');
});

// add some items to the queue (batch-wise)
q.push([{name: 'baz'},{name: 'bay'},{name: 'bax'}], function(err) {
    console.log('finished processing item');
});

// add some items to the front of the queue
q.unshift({name: 'bar'}, function (err) {
    console.log('finished processing bar');
});

其實官網有好多栗子，近期還會抽時間好好研究一下類似非同步流程庫的具體實現。

3. 404錯誤。獲取不到資源

這個其實還好，主要是網站為了防爬的措施，可以嘗試一下方法來試試看：

設定user-agent
降低請求的併發量
更換IP

總結

雖然只是一個簡單的爬蟲，但是發現自己對於 promise 這種的非同步流程還不是很熟悉，這點需要重點掌握。

另外，從爬蟲的角度來說，node現在的庫已經很完善了，還有 phantomjs，node-crawl 這種操作更6的庫存在，掌握一門工具很容易，更重要的是要學會製作工具。

最後，練習爬蟲只是出於對技術的熱愛，莫要亂爬。

輪子：一個簡單的node爬蟲踩坑之路

一個簡單的node爬蟲踩坑之路準備工作最近在看爬蟲相關的文章，偶然想起來嘗試一下用node來實現一個簡單的爬蟲。但是爬別的多沒意思，當然是爬美女圖片啊。。。這大概 node 裡面造的最多的輪子了。於是，我選取了下面的地址：美女圖片戳我，簡單分析後

Python爬蟲入門筆記：一個簡單的爬蟲架構

上次我們從對爬蟲進行簡單的介紹，今天我們引入一個簡單爬蟲的技術架構，解釋爬蟲技術架構中的幾個模組，對爬蟲先有一個整體的認知，方便對爬蟲的理解和後面的程式設計。簡單的爬蟲架構：URL管理、網頁下載、網頁解析、輸出部分，如下圖： 1、UR

angular踩坑之路：初探webpack

match 了解 contex tex component logs pen erro nco 之前費了一番力氣安裝好了angular開發環境，後面的幾天都是在angular中文官網上看文檔，照著英雄教程一步一步操作，熟悉了angular的一些基本特性，這部分沒

Angular4.0踩坑之路：探索子路由和懶加載

ati clas per 而是配置 trap child property one 參考文章： Angular4路由快速入門 http://www.jianshu.com/p/e72c79c6968e Angular2文檔學習的知識點摘要——Angular模塊（NgMo

Python爬蟲踩坑之隨機數種子的問題

在看一本資料庫產生了一個關於離散的問題，由於本人對離散還不懂。在大佬的建議下研究了下隨機數種子的問題（和此問題類似吧）由於隨機數種子的概念有些文章已經有了就不在贅述:隨機數種子概述在此主要通過Python當中random來研究這個問題:random模組進

Python爬蟲踩坑之二分查詢，數值按位相加，

由於比較緊張，題當時沒寫完，昨天重新寫了下二分查詢：二分查詢又稱折半查詢，其核心就是在有序的表中，取中表的中間值和目標值來匹配，中間值比目標值大，則繼續左子表中二分，反之同理。一直查到目標值與匹配值相等，否則不存在。題目：在數字列表中隨機兩個數使之等

webpack踩坑之路 (2)——圖片的路徑與打包

img url rom file filename png 一起類型 emp webpack踩坑之路 (2)——圖片的路徑與打包剛開始用webpack的同學很容易掉進圖片打包這個坑裏，比如打包出來的圖片地址不對或者有的圖片並不能打包進我們的目標文件夾裏(bund

爬蟲開坑之路(一)

VG dia mage isp tex tro 需要正式 ont 什麽是爬蟲　　網絡爬蟲(web crawler)，也叫網絡蜘蛛(spider)，是一種用來自動瀏覽萬維網的網絡機器人(bots)。爬蟲是通過網頁的鏈接地址來尋找網頁，從網站某一個頁面開始，讀取網頁的內容

配置taBar所遇見的問題（踩坑之路）

分享圖片 type http 效果圖 navi src 之路 com nbsp 目前效果圖：問題：我遇見一個問題，點擊每周關註的時候，他應該跳轉到哪一個頁面。在沒有設置taBar還是可以跳轉的。解決方法是：修改 open-type=‘navig

文字快速分類利器fasttext使用心得（踩坑之路）

fasttext是文字分類的一大利器，優點：快，嗷嗷快；缺點：暫未發現。但是我在使用其做文字分類時候還是遇到了挺多坑，今天先總結一個：網上有人說設定訓練引數的時候，ngrams設定大於2可以提高模型的精確度，打算試試，然而設定之後系統直接顯示： floating point exception(core

Android SDK 開發——釋出使用踩坑之路

前言在 Android 開發過程中，有些功能是通用的，或者是多個業務方都需要使用的。為了統一功能邏輯及避免重複開發，因此將該功能開發成一個 SDK 是相當有必要的。背景剛好最近自己遇到了類似需求，在開發完 SDK 之後，整合到專案或者提供給別人的時候遇到了一些坑，這裡分享一下，以避免其他需

踩坑之路 [email protected]傳物件

在postmen上使用@RequestBody傳物件，接受不到引數。報錯： { “timestamp”: 1542330043448, “status”: 400, “error”: “Bad Request”, “exception”: “org.springframework.ht

Realm資料的踩坑之路

找個時間，得把各種資料庫的原理了解並記錄一下。現在先把使用過程中遇到的問題列一下： 1、切記realm資料庫支援的型別，使用了陣列和字典的要注意了，最好宣告一個NSData型別的對應屬性，然後使用ignoredProperties忽略陣列和字典型別的屬性。。在儲存時候轉化一

踩坑之路 [email protected]傳物件

在postmen上使用@RequestBody傳物件，接受不到引數。報錯： { “timestamp”: 1542330043448, “status”: 400, “error”: “Bad Req

輪子：一個簡單的node爬蟲踩坑之路

一個簡單的node爬蟲踩坑之路

準備工作

最終的效果

原始碼：

劃重點

1.當爬取網頁編碼為 `gb2312`的網頁的時候，爬到的內容中文顯示是亂碼

2. 非同步操作用 async 來控制

3. 404錯誤。獲取不到資源

總結

輪子：一個簡單的node爬蟲踩坑之路

Python爬蟲入門筆記：一個簡單的爬蟲架構

angular踩坑之路：初探webpack

Angular4.0踩坑之路：探索子路由和懶加載

Python爬蟲踩坑之隨機數種子的問題

Python爬蟲踩坑之二分查詢，數值按位相加，

webpack踩坑之路 (2)——圖片的路徑與打包

爬蟲開坑之路(一)

配置taBar所遇見的問題（踩坑之路）

文字快速分類利器fasttext使用心得（踩坑之路）

Android SDK 開發——釋出使用踩坑之路

踩坑之路 [email protected]傳物件

Realm資料的踩坑之路

踩坑之路 [email protected]傳物件

阿里雲訊息佇列MQTT踩坑之路（阿里雲MQTT Android客戶端）

踩坑之路——Redis遷移遇到的一路坑

從入到放棄——快應用踩坑之路

Python踩坑之路-Python-3.6 安裝pycrypto 2.6.1各種疑難雜症及解決方案

GraphQL的踩坑之路

微信小程式零基礎入門踩坑之路

輪子：一個簡單的node爬蟲踩坑之路

一個簡單的node爬蟲踩坑之路

準備工作

最終的效果

原始碼：

劃重點

1.當爬取網頁編碼為 gb2312的網頁的時候，爬到的內容中文顯示是亂碼

2. 非同步操作用 async 來控制

3. 404錯誤。獲取不到資源

總結

相關推薦

踩坑之路[email protected]傳物件

踩坑之路[email protected]傳物件

1.當爬取網頁編碼為 `gb2312`的網頁的時候，爬到的內容中文顯示是亂碼

踩坑之路 [email protected]傳物件

踩坑之路 [email protected]傳物件