Node.js 實現簡易爬蟲

阿新 • • 發佈：2019-02-06

為什麼選擇利用node來寫爬蟲呢？就是因為cheerio這個庫，全相容jQuery語法，熟悉的話用起來真真是爽

依賴選擇

cheerio： Node.js 版的jQuery
http：封裝了一個HTPP伺服器和一個簡易的HTTP客戶端
iconv-lite：解決爬取gb2312網頁出現亂碼

初步實現

既然是要爬取網站內容，那我們就應該先去看看網站的基本構成
選取的是電影天堂作為目標網站，想要去爬取所有最新電影的下載連結

分析頁面

頁面結構如下：
ygdy.tiff

我們可以看到每個電影的標題都在一個class為ulink的a標籤下，再往上定位，我們可以看到最外部的盒子class為co_content8

ok，可以開工了

獲取一頁電影標題

首先引入依賴，並設定需要爬取的url

var cheerio = require('cheerio');var http = require('http');var iconv = require('iconv-lite');var url = 'http://www.ygdy8.net/html/gndy/dyzz/index.html';

核心程式碼 index.js

http.get(url, function(sres) {  var chunks = [];  sres.on('data', function(chunk) {    chunks.push(chunk);  });  // chunks裡面儲存著網頁的 html 內容，將它zhuan ma傳給 cheerio.load 之後  // 就可以得到一個實現了 jQuery 介面的變數，將它命名為 `$`  // 剩下就都是 jQuery 的內容了  sres.on('end' 
, function() {    var titles = [];    //由於咱們發現此網頁的編碼格式為gb2312，所以需要對其進行轉碼，否則亂碼    //依據：“<meta http-equiv="Content-Type" content="text/html; charset=gb2312">”    var html = iconv.decode(Buffer.concat(chunks), 'gb2312');    var $ = cheerio.load(html, {decodeEntities: false});    $('.co_content8 .ulink' 
).each(function (idx, element) {      var $element = $(element);      titles.push({        title: $element.text()      })    })        console.log(titles);       });});

執行node index

結果如下

成功獲取電影title，那如果我想獲取多個頁面的title呢，總不可能一個一個url去改吧。這當然有辦法，請往下看！

獲取多頁電影標題

我們只要將之前的程式碼封裝成一個函式並遞迴執行就完成了

核心程式碼 index.js

var index = 1; //頁面數控制var url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_';var titles = []; //用於儲存titlefunction getTitle(url, i) {  console.log("正在獲取第" + i + "頁的內容");   http.get(url + i + '.html', function(sres) {    var chunks = [];    sres.on('data', function(chunk) {      chunks.push(chunk);    });    sres.on('end', function() {      var html = iconv.decode(Buffer.concat(chunks), 'gb2312');      var $ = cheerio.load(html, {decodeEntities: false});      $('.co_content8 .ulink').each(function (idx, element) {        var $element = $(element);        titles.push({          title: $element.text()        })      })        if(i < 2) { //為了方便只爬了兩頁        getTitle(url, ++index); //遞迴執行，頁數+1      } else {        console.log(titles);         console.log("Title獲取完畢！");                    }    });  });}function main() {  console.log("開始爬取");  getTitle(url, index);}main(); //執行主函式

結果如下

獲取電影下載連線

如果是人工操作，我們需要一次操作，通過點選進入電影詳情頁才能找到下載地址
那我們通過node如何來實現呢

常規先來分析頁面佈局

我們如果想要準確定位到下載連結，需要先找到id為Zoom的div，下載連結就在這個div下的tr下的a標籤內。

那我們就再定義一個函式，用於獲取下載連結

getBtLink()

function getBtLink(urls, n) { //urls裡面包含著所有詳情頁的地址  console.log("正在獲取第" + n + "個url的內容");  http.get('http://www.ygdy8.net' + urls[n].title, function(sres) {    var chunks = [];    sres.on('data', function(chunk) {      chunks.push(chunk);    });    sres.on('end', function() {      var html = iconv.decode(Buffer.concat(chunks), 'gb2312'); //進行轉碼      var $ = cheerio.load(html, {decodeEntities: false});      $('#Zoom td').children('a').each(function (idx, element) {        var $element = $(element);        btLink.push({          bt: $element.attr('href')        })      })      if(n < urls.length - 1) {        getBtLink(urls, ++count); /／遞迴      } else {        console.log("btlink獲取完畢！");        console.log(btLink);         }    });  });}

再次執行 node index
WX20170318-190537@2x.png
WX20170318-190549@2x.png

就這樣我們將3個頁面內所有電影的下載連結獲取完畢，是不是很簡單？

儲存資料

我們講這些資料爬取出來當然是要進行儲存的啊，在這裡我選用了MongoDB來對其進行儲存處理

資料儲存函式 save()

function save() {  var MongoClient = require('mongodb').MongoClient; //匯入依賴  MongoClient.connect(mongo_url, function (err, db) {    if (err) {      console.error(err);      return;    } else {      console.log("成功連線資料庫");      var collection = db.collection('node-reptitle');      collection.insertMany(btLink, function (err,result) { //插入資料        if (err) {          console.error(err);        } else {          console.log("儲存資料成功");        }      })      db.close();    }  });}

這裡的操作很簡單，就沒必要上mongoose啦
再次執行 node index

這個Node.js實現的爬蟲就是這樣了，祝大家能爬到自己想要的資料；）

個人建了前端學習群，旨在一起學習前端。純淨、純粹技術討論，非前端人員勿擾！入群加我微信：iamaixiaoxiao。

Node.js 實現簡易爬蟲

為什麼選擇利用node來寫爬蟲呢？就是因為cheerio這個庫，全相容jQuery語法，熟悉的話用起來真真是爽依賴選擇 cheerio： Node.js 版的jQueryhttp：封裝了一個HTPP伺服器和一個簡易的HTTP客戶端iconv-lite：解決爬取gb2

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

r.js 目錄 ref 抓取 {} attr 視頻 json clist 抓取目標：就是我自己的博客：http://www.cnblogs.com/ghostwu/ 需要實現的功能：抓取博客所有的文章標題，超鏈接，文章摘要，發布時間需要用到的庫： node.js自帶的h

node.js 實現爬蟲批量下載喜馬拉雅音訊

前提：最近一直在看node，平時碎覺喜歡聽盜墓筆記啥的有聲小說，然後突然就就想試著寫個爬蟲自己下載下來，雖然有點多此一舉，但是就當學習練練手了，在這裡記錄一下！沒有express基礎的，請先行了解確定需求 1，拿到xmly的資料，分析api 2，用node開發介

node.js實現圖片上傳（包含縮略圖）

http close path return new tde log img thumb 圖片上傳使用multiparty插件實現上傳安裝multiparty npm i --save multiparty 代碼實現 const multiparty = requi

js 實現簡易留言板功能

con wid NPU children 標準 element 出錯 hdel focus <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xh

Node.js搭建簡易用戶登錄

soft abs users 輸入密碼 block esp min ace microsoft 根據學習筆記一的知識點搭建的簡易用戶註冊登錄模塊，用戶數據暫用json保存。 HTML： <!DOCTYPE html> <html lang="en"

Four-operations: 使用node.js實現四則運算程序

任務 stand 設計 soft war 文檔代碼規範 node 項目一. 項目基本信息項目成員: 陳旭欽, 郭鵬燕項目倉庫: https://github.com/Yanzery/Four-operations 二. PSP2.1表格 PSP2.1 Pers

node——8-node.js 實現 apache 功能

初步實現 apache 功能 var http = require('http'); var fs = require('fs'); // 任意目錄地址 var wwwDir = 'E:/desk/my-pro/QD-practice/node/2/www'; // 1. 建立

JS實現簡易版備忘錄

1、概述實現像手機便籤一樣功能的簡易版備忘錄頁面，該備忘錄全部用JQuery提供的功能實現，非常簡單易懂。 2、功能介紹（1）簡潔的頁面，主介面僅提供兩個按鈕用於新增和刪除記錄; （2）新增完成的多條記錄，支援批量選擇刪除；（3）每條記錄支援點選行內進行修改; （4

微信小程式推廣二維碼海報Node.js實現版

引言最近公司的微信小程式專案由於業務需求需要實現二維碼推廣海報，而小程式的服務端程式碼是用node.js實現的，由於是第一次使用node.js作為服務端來實現圖片的相關處理，不免走了一些坑。所以為了避免大家也像我一樣花費不必要的時間爬坑，就將我再開發過程中遇到的一些過程記錄下來，供大家參考，水平有限，請相

html5 websocket + node.js 實現網頁聊天室

1 client: socket.io server: node.js + express + socket.io 一個簡單的聊天室 demo，沒有註冊，內建了一些測試使用者

node.js實現傳送郵件功能

準備事項 QQ郵箱設定：進入QQ郵箱->設定->賬戶->POP3/IMAP/SMTP/Exchange/CardDAV/CalDAV服務->開啟POP3/SMTP服務，並複製pass祕鑰安裝nodemailer ：npm install nodem

Node.js實現對mysql資料庫的crud時報加密方式錯誤解決方案

本人在學習全棧開發過程中做一個Node的web專案在連線本地MySQL8.0版本的資料庫時，發現Navicat連線不上，它報了一個數據庫的加密方式導致連線不上的錯誤，錯誤如下： MySQL8.0版本的加密方式和MySQL5.0的不一樣，連線會報錯。解決方法如下：開啟mysql的命令列進入

Node.js實現支付寶H5支付

1、建立支付應用 1.1、根據需要選擇介面型別，這裡選擇支付應用。 1.2、選擇使用環境 1.3、簽約當面付（線下支付） 2、使用alipay-sdk 2.1、引入服務端SDK模組 npm i alipay-sdk 2.2、配置app資訊 var AlipaySdk

使用html+css+js實現簡易計算器

使用html+css+js實現簡易計算器，效果圖如下： html程式碼如下： 1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="UTF-

又拍雲 Node.js 實現檔案上傳、刪除

Node.js 服務端使用 Node.js + Express.js 實現服務端 const express = require("express"); const app = express(); const axios = require('axios'); app.set('port', proc

第四十六篇：MAC下使用 Node.js 實現一個 WebServer 伺服器

引序： Node.js 採用一系列“非阻塞”庫來支援事件迴圈的方式。Node.js是一個伺服器端 JavaScript 直譯器 , 也就是說 Node.js 是一個支援 JavaScript 語法編寫伺服器程式碼的環境。在MAC下用命令安裝 N

node.js實現本地http請求

有時候在專案中需要在手機或者其它的電腦上進行預覽，這個時候，怎麼做呢，我這裡的方法是使用node.js，在使用node.js之前需要3個依賴檔案，如下圖1,一個mime.json一個node.js.另一個是package.json這3個檔案,把它們放在同一個資料夾裡。2,然後

JS實現簡易版貪吃蛇小遊戲（純js程式碼）

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html> <head&

查詢Excel表格中的某一列資料【Node.js實現】

const fs = require('fs') const xlsx = require('node-xlsx') const sheets = xlsx.parse('example.xlsx') sheets.forEach(sheet => { // 獲取整個excel

Node.js 實現簡易爬蟲

依賴選擇

初步實現

分析頁面

獲取一頁電影標題

獲取多頁電影標題

獲取電影下載連線

儲存資料

相關推薦