[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息
抓取目標:就是我自己的博客:http://www.cnblogs.com/ghostwu/
需要實現的功能:
抓取博客所有的文章標題,超鏈接,文章摘要,發布時間
需要用到的庫:
node.js自帶的http庫
第三方庫:cheerio,這個庫就是用來處理dom節點的,他的用法幾乎跟jquery用法一模一樣,所以有了這個利器,寫一個爬蟲就非常簡單
準備工作:
1,npm init --yes 初始化package.json
2,安裝cheerio:npm install cheerio --save-dev
實現的目標,是要把每篇文章需要抓取的部分( 抓取文章標題,超鏈接,文章摘要,發布時間 )整理成一個對象, 放在數組中,如:
[ { title: ‘[置頂][js高手之路]從零開始打造一個javascript開源框架gdom與插件開發免費視頻教程 連載中‘, url: ‘http://www.cnblogs.com/ghostwu/p/7470038.html‘, entry: ‘摘要: 百度網盤下載地址:https://pan.baidu.com/s/1kULNXOF 優酷土豆觀看地址:htt p://v.youku.com/v_show/id_XMzAwNTY2MTE0MA==.html?spm=a2h0j.8191423.playlist_content.5!3~5~ 5~A&&f‘, listTime:‘2017-09-05 17:08‘ }, { title: ‘[js高手之路]Vue2.0基於vue-cli+webpack Vuex用法詳解‘, url: ‘http://www.cnblogs.com/ghostwu/p/7521097.html‘, entry: ‘摘要: 在這之前,我已經分享過組件與組件的通信機制以及父子組件之間的通信機制,而 我們的vuex就是為了解決組件通信問題的 vuex是什麽東東呢? 組件通信的本質其實就是在組件之間傳 遞數據或組件的狀態(這裏將數據和狀態統稱為狀態),但可以看到如果我們通過最基本的方式來進行 通信,一旦需要管理的狀態多了,代碼就會‘, listTime:‘2017-09-14 15:51‘ }, { title: ‘[js高手之路]Vue2.0基於vue-cli+webpack同級組件之間的通信教程‘, url: ‘http://www.cnblogs.com/ghostwu/p/7518158.html‘, entry: ‘摘要: 我們接著上文繼續,本文我們講解兄弟組件的通信,項目結構還是跟上文一樣. 在 src/assets目錄下建立文件EventHandler.js,該文件的作用在於給同級組件之間傳遞事件 EventHandl er.js代碼: 2,在Components目錄下新建一個組件Brother1.vue 。通過Eve‘, listTime: ‘2017-09-13 22:49‘ }, ]
思路講解:
1,獲取目標地址:http://www.cnblogs.com/ghostwu/ 所有的html內容
2,提取所有的文章html內容
3,提取每篇文章下面對應的( 文章標題,超鏈接,文章摘要,發布時間 )
1 var http = require(‘http‘); 2 var cheerio = require(‘cheerio‘); 3 4 var url = ‘http://www.cnblogs.com/ghostwu/‘; 5 6 function filterHtml(html) { 7 var $ = cheerio.load(html); 8 var arcList = []; 9 var aPost = $("#content").find(".post-list-item"); 10 aPost.each(function () { 11 var ele = $(this); 12 var title = ele.find("h2 a").text(); 13 var url = ele.find("h2 a").attr("href"); 14 ele.find(".c_b_p_desc a").remove(); 15 var entry = ele.find(".c_b_p_desc").text(); 16 ele.find("small a").remove(); 17 var listTime = ele.find("small").text(); 18 var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/; 19 listTime = listTime.match( re )[0]; 20 arcList.push({ 21 title: title, 22 url: url, 23 entry: entry, 24 listTime: listTime 25 }); 26 }); 27 return arcList; 28 } 29 30 http.get(url, function (res) { 31 var html = ‘‘; 32 var arcList = []; 33 // var arcInfo = {}; 34 res.on(‘data‘, function (chunk) { 35 html += chunk; 36 }); 37 res.on(‘end‘, function () { 38 arcList = filterHtml( html ); 39 console.log( arcList ); 40 }); 41 });
有幾個關鍵的地方要講解下:
1,res.on( ‘data‘, function(){} )
http模塊發送get請求之後,就會源源不斷的抓取目標網頁的源代碼內容, 所以,我在on中監聽data事件, chunk就是傳輸的數據,把這些數據累加到html這個變量, 當數據傳輸完之後就會觸發end事件,你可以在end事件中打印一下console.log( html ) 就能發現,他就是目標地址的所有html源代碼,這樣就解決了我們的第一個問題:獲取目標地址:http://www.cnblogs.com/ghostwu/ 所有的html內容
2,有了完整的html內容之後,接下來我封裝了一個函數filterHTML用來過濾我所需要的結果( 每篇文章的信息 )
3,var $ = cheerio.load(html); 把html內容通過cheerio的load方法加載進來,就可以用cheerio的節點操作了,為了親和jquery的操作,我用美元符號$保存了這個文檔對象
4,var aPost = $("#content").find(".post-list-item"); 這個是所有的文章節點信息,拿到之後,通過each方法 挨個遍歷並抓取需要的信息,整理成對象,然後放在一個數組中
1 arcList.push({ 2 21 title: title, 3 22 url: url, 4 23 entry: entry, 5 24 listTime: listTime 6 25 });
這樣就處理完了,結果已經在上面展示了,如果博客樣式跟我的博客樣式一樣,應該都能抓取了,
接著完善分頁抓取,這樣就能把整個博客爬下來了
1 var http = require(‘http‘); 2 var cheerio = require(‘cheerio‘); 3 4 var url = ‘http://www.cnblogs.com/ghostwu/‘; 5 6 function filterHtml(html) { 7 var $ = cheerio.load(html); 8 var arcList = []; 9 var aPost = $("#content").find(".post-list-item"); 10 aPost.each(function () { 11 var ele = $(this); 12 var title = ele.find("h2 a").text(); 13 var url = ele.find("h2 a").attr("href"); 14 ele.find(".c_b_p_desc a").remove(); 15 var entry = ele.find(".c_b_p_desc").text(); 16 ele.find("small a").remove(); 17 var listTime = ele.find("small").text(); 18 var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/; 19 listTime = listTime.match(re)[0]; 20 arcList.push({ 21 title: title, 22 url: url, 23 entry: entry, 24 listTime: listTime 25 }); 26 }); 27 return arcList; 28 } 29 30 function nextPage( html ){ 31 var $ = cheerio.load(html); 32 var nextUrl = $("#pager a:last-child").attr(‘href‘); 33 if ( !nextUrl ) return ; 34 var curPage = $("#pager .current").text(); 35 if( !curPage ) curPage = 1; 36 var nextPage = nextUrl.substring( nextUrl.indexOf( ‘=‘ ) + 1 ); 37 if ( curPage < nextPage ) crawler( nextUrl ); 38 } 39 40 function crawler(url) { 41 http.get(url, function (res) { 42 var html = ‘‘; 43 var arcList = []; 44 res.on(‘data‘, function (chunk) { 45 html += chunk; 46 }); 47 res.on(‘end‘, function () { 48 arcList = filterHtml(html); 49 console.log( arcList ); 50 nextPage( html ); 51 }); 52 }); 53 } 54 crawler( url );
[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息