Node.js基礎入門第六天

阿新 • • 發佈：2022-04-03

經過前面五天的學習，對Node.js開發已經逐漸入門，今天結合之前學到的東西，開發一個小示例【爬取某圖片網站的圖片】，僅供學習分享使用，如有不足之處，還請指正。

涉及知識點

開發一個小爬蟲，涉及的知識點如下所示：

https模組，主要是使用者獲取網路資源，如：網頁原始碼，圖片資源等。
cheerio模組，主要用於解析html原始碼，並可訪問，查詢html節點內容。
fs模組，主要用於檔案的讀寫操作，如儲存圖片，日誌等。
閉包，主要是對於非同步操作，物件的隔離保護。

cheerio簡介

什麼是cheerio ?

cheerio是為伺服器特別定製的，快速、靈活、實施的jQuery核心實現。主要用於在服務端解析html。特點如下所示：

易用，語法類似jQuery語法，從jQuery庫中去除了所有 DOM不一致性和瀏覽器尷尬的部分。
解析快，比JSDOM快八倍。
靈活，Cheerio 封裝了相容的htmlparser。Cheerio 幾乎能夠解析任何的 HTML 和 XML document。

安裝cheerio

首先在命令列，切換到程式目錄，然後輸入安裝命令進行安裝，如下所示：

1 cnpm install cheerio

安裝過程，如下所示：

準備工作

在編寫爬蟲之前，首先需要分析目標內容，本次需要爬取的是某網站，星空型別的圖片內容，經過分析，發現所有的圖片都是在ul下每一個li中的a標籤內的img中，本次只需要解析出img的src屬性，即可獲取圖片的下載路徑。如下所示：

核心程式碼

經過以上分析，通過Node.js編寫程式碼，分為兩步，獲取所有圖片的url路徑，即解析所有目標img元素的src屬性。然後再下載具體圖片進行儲存即可。

引用所需要的功能模組，如下所示：

1 var https = require('https');
2 var cheerio = require('cheerio');
3 var fs = require('fs');

獲取並解析html頁面內容，如下所示：

 1 //爬取的網址 
 2 var addrs=['https://www.*****.com/topic/show_27202_1.html','https://www.******.com/topic/show_27202_2.html','https://www.*****.com/topic/show_27202_3.html'];
 
 3 var logger = fs.createWriteStream('./download/log.txt',{flags:'a+',autoClose:'true'});
 4 
 5 for(i in addrs){
 6     (function(num){
 7    var addr = addrs[num];
 8    //建立目錄
 9    var p1 = new Promise(function(resolve,reject){
10      fs.access('./download',function(err){
11        if(err){
12            fs.mkdir('./download',function(e){
13                if(e){
14                    console.log('建立失敗');
15                }
16            });
17         }else{
18             resolve("success");
19         }
20        });  
21    });
22    
23    p1.then(function(datas){
24        var html='';
25        var p2 = new Promise(function(resolve,reject){
26            https.get(addr,function(res){
27                 res.on('data',function(data){
28                     html+=data.toString();
29                 })
30                 res.on('end',function(){
31                     resolve("success");
32                 });
33                 
34             });
35            
36        });
37       p2.then(function(data){
38         //下載完成後，進行解析
39         const $ =cheerio.load(html);
40         var lis = $('#img-list-outer').find('li');
41         for(var j=0;j<lis.length-1;j++){
42             var li = lis[j];
43             var src =$(li).find('a').find('img').attr('src');
44             //console.log(src);
45             //console.log('-------------------------');
46             var imgurl='https:'+src;
47             download(imgurl);
48             var msg='['+j+']下載成功：'+imgurl;
49             logger.write(msg+'\n');
50             console.log(msg);
51         }
52       });
53    });
54    })(i);
55 }

注意：因為所有爬取的目標共分為3頁，所以用到了迴圈，並且在迴圈中用到了閉包。

下載並儲存單張圖片程式碼，如下所示：

 1 //下載圖片
 2 function download(imgurl){
 3     var p1 = new Promise(function(resolve,reject){
 4         https.get(imgurl,function(res){
 5             var imgName=imgurl.substr(imgurl.lastIndexOf('/')+1);
 6             var stream = fs.createWriteStream('./download/'+imgName);
 7             res.pipe(stream);
 8             setTimeout(function(){
 9                 resolve('success');
10             },300);
11             
12         });
13     });
14     p1.then(function(data){
15         return;
16     });
17 }

示例截圖

開發完成後，執行程式碼，如下所示：

爬取的圖片，儲存在資料夾中，如下所示：

注意：新增日誌，是為了方便記錄程式執行過程，對比圖片和日誌，便於發現問題。

備註

學而時習之，不亦說乎？有朋自遠方來，不亦樂乎？人不知而不慍，不亦君子乎？

Node.js基礎入門第六天

Node.js基礎入門第三天

經過前面兩天的學習，已經對Node.js有了一個初步的認識，今天繼續學習其他內容，並加以整理分享，如有不足之處，還請指正。

Node.js基礎入門第四天

經過前面三天的學習，Node.js的基礎知識已逐漸掌握，今天繼續學習快取區和檔案操作，並稍加整理加以分享，如有不足之處，還請指正。

Node.js基礎入門第七天

經過前面六天的知識學習，對Node.js開發的基礎知識，有了一個初步的掌握，今天繼續學習Node.js後端web開發的相關知識，本篇文章作為Node.js服務端程式開發的基礎入門知識，僅供學習分享使用，如有不足之處，還請指正

Node.js基礎入門第十天

經過前面九天的學習，對Node.js開發有了一個初步的認識，今天繼續學習Node.js後端開發框架Express相關內容，僅供學習分享使用，如有不足之處，還請指正。

Node.js基礎入門第九天

經過前面幾天對Node.js的學習，基本的開發知識已經逐漸掌握，所謂工欲善其事必先利其器，今天進一步學習Node.js的開發框架Express。利用Express框架可以快速的進行Web後端開發，本文僅供學習分享使用，如有不足之處，

Node.js基礎語法和ES6新屬性（Node.js自學第一天）

Node.js從4.0開始，支援ES6的大多數新特性，例如：classes、typed arrays、generators、Promises、Symbols、collections、arrowfunctions、block scoping、template strings等。

Node.js基礎入門第一天

在這個競爭日益激烈的今天，已經不是一門語言，一項技術走天下的時代了。正所謂藝多不壓身，今天開始學習Node.js，學而時習之，不亦樂乎，希望可以借鑑經驗，學以致用，如有不足之處，還請指正。

node.js基礎知識彙總

一、node介紹 1.node的應用場景工具類 gulp webpack vite （node可以讓js執行在伺服器）

Python零基礎入門第1章.環境搭建

基本資料型別(二) 一、序列型別序列型別用來表示有序的元素集合。 1. 字串 python中字串用str表示，字串是使用單引號，雙引號，三引號包裹起來的字元的序列，用來表示文字資訊。

Android入門第六篇之ListView (一)

2019獨角獸企業重金招聘Python工程師標準>>> ListView是一個經常用到的控制元件，ListView裡面的每個子項Item可以使一個字串，也可以是一個組合控制元件。先說說ListView的實現：

Node.js基礎知識整理

技術標籤：node前端學習node.jsbuffernode前端 Node.js基礎知識整理前言1.node能做什麼2.安裝node3.初識node4.用node傳送一個http請求5.buffer fs streambufferfsstream

Arm入門第六講偽指令與Load/Store架構

目錄Arm入門第六講偽指令與Load/Store架構一丶偽指令ADR偽指令ADRL 中等範圍地址讀取偽指令MOV32 偽指令二丶Load/Store架構單個暫存器資料讀取指令LDR 型別資料載入指令LDR 字資料載入指令LDRB 位元組資料載入指令

Node JS基礎

Node Node是基於chrome V8的js執行環境去node.js官網下載安裝包安裝即可在命令列工具輸入node -v後回車可檢視node環境是否安裝成功

小迪安全 Web安全基礎入門第六天 - 資訊打點-Web架構篇&域名&語言&中介軟體&資料庫&系統&原始碼獲取

一 . Web架構語言。常用的Web開發語言有PHP，Java，Python，JavaScript，.net等。具體可參考w3school的介紹。

雲原生入門第六章：持續交付

@ 目錄 1. 簡介 2. 學習目標 3. 應用程式交付 4. CI / CD 5. GitOps 6. 其它資源 1. 簡介這些年來，在任何平臺上部署應用程式都有了很大的進步。一開始,應用程式可能會在同一臺機器上執行他們寫,後經由物理媒

通過 Node.js 中的 RESTful API 管理您的雲基礎架構

曾幾何時有人需要在網際網路上釋出他們自己的網站，他們不得不去購買昂貴的伺服器，希望效能足以增加使用者群或購買他們不會滿負荷使用的更昂貴的伺服器。但這只是工作的20％，然後他們不得不聯絡ISP併為伺服器購買公

『學習筆記05』node.js的基礎入門

技術標籤：nodejs 『學習筆記05』node.js的基礎入門以下內容是自學於菜鳥教程所做的筆記。

玩轉Node.js-Sequelize基礎

Sequelize是什麼？ Sequelize 是一個基於 promise 的 Node.js ORM, 目前支援 Postgres, MySQL, MariaDB, SQLite 以及 Microsoft SQL Server. 它具有強大的事務支援, 關聯關係, 預讀和延遲載入,讀取複製等功能。

學習Node.js第三天

技術標籤：vue.jshtml 解決前端向後臺傳多個引數一、第一個問題：後臺接收不到前端傳來的引數解決辦法：由於從req.query身上解構出id，使用id時必須使用${} 才能獲取到id的值二、第二個問題：SQL語句中解構出的

Node.js基礎入門第六天

涉及知識點

cheerio簡介

什麼是cheerio ?

安裝cheerio

準備工作

核心程式碼

示例截圖

備註

相關推薦