node實現多網頁爬蟲

阿新 • • 發佈：2018-12-16

本案例以慕課網為例

在命令列安裝cheerio

npm install cheerio

在命令列安裝bluebird

npm install bluebird

//爬蟲，優雅的非同步程式設計
// 載入http模組
var http = require('https')
//bluebird是一個第三方的Promise實現
var Promise = require('bluebird')
// Cheerio 是一個Node.js的庫， 它可以從html的片斷中構建DOM結構，然後提供像jquery一樣的cs
var cheerio = require('cheerio')

// 定義爬蟲的目標地址
var baseUrl = 'https://www.imooc.com/learn/'
//var url = 'https://www.imooc.com/learn/348'
//提供具體頁面數值，可多個頁面爬取資料
var courseIds=[348]


//過濾資料
function filterChapters(html) {
    // 沿用JQuery風格
	var $ = cheerio.load(html)
    // 通過類名獲取章節資訊
	var chapters = $('.chapter')
    // 課程資料，該資料是一個數組
	var courseData = []
    
	var courseTitle = $('.hd').find('h2').text().replace(/\s/g,'')
	var courseNumber = $($('.static-item')[2]).find('.meta-value').text().replace(/\s/g,'')

    /* 章節資訊遍歷 */
	chapters.each(function(index,value) {
        // 獲取單獨的每一章
		var chapter = $(this)
        // 獲取strong標籤裡面的文字，trim()去除空格，split()分隔成陣列，最終只獲取章節標題
		var chapterTitle = chapter.find('h3').text().replace(/\s/g,'')
        // 獲取video標籤下的子標籤li的內容
		var videos = chapter.find('.video').children('li')
		var chapterData = {
			chapterTitle: chapterTitle,
			videos: []
		}

		videos.each(function(item) {
			var video = $(this)
			var videoTitle = video.text().replace(/\s/g,'').split('開始學習')[0]
			var id=video.find('a').attr('href').split('/')[2].replace(/\s/g,'');
//可能要修改
			var videoData={
				title:videoTitle,
				id:id
			}
			chapterData.videos.push(videoData);
		})
		courseData.push(chapterData)
	})
	var courseObjectData={
		courseTitle:courseTitle,
		courseNumber:courseNumber,
		courseData:courseData
	}
	return courseObjectData
}

//將得到的資料展示出來
function printCourseInfo(coursesData) {
	coursesData.forEach(function(courseData) {
		console.log(courseData.courseNumber + '人學過' + courseData.courseTitle + '\n')
	})
	coursesData.forEach(function(courseData) {
		console.log('###' + courseData.courseTitle + '\n')
		courseData.courseData.forEach(function(item) {
			var chapterTitle = item.chapterTitle
			console.log(chapterTitle + '\n')
			item.videos.forEach(function(video) {
				console.log('    【' + video.id + '】  ' + video.title + '\n')
			})
		})
	})
}
/*

使用http模組來得到html文件

*/
function getPageAsync(url) {
	return new Promise(function(resolve, reject) { //正確時執行resolve，錯誤時執行reject
		console.log('正在爬取' + url)

		http.get(url, function(res) {
			var html = ''

			res.on('data', function(data) {
				html += data
			})

			res.on('end', function() {
				resolve(html)
				//				var courseData = filterChapters(html)
				//				printCourseInfo(courseData)
			})
			res.on('error', function(e) {
				reject(e)
				console.log('獲取課程資料出錯')
			})
		})

	})
}

var fetchCourseArray = []
courseIds.forEach(function(id) {
	fetchCourseArray.push(getPageAsync(baseUrl + id)); //把得到的每個地址放到fetchCourseArray

})

Promise
	.all(fetchCourseArray)
	.then(function(pages) {
		var coursesData = []
		pages.forEach(function(html) {
			var courseData = filterChapters(html)

			coursesData.push(courseData)
		})

		coursesData.sort(function(a, b) {
			return a.number < b.number
		})

		printCourseInfo(coursesData)

	})

node實現多網頁爬蟲

本案例以慕課網為例在命令列安裝cheerio npm install cheerio 在命令列安裝bluebird npm install bluebird //爬蟲，優雅的非同步程式設計 // 載入http模組 var http = re

如何實現多個爬蟲迴圈順序爬取

首先設定一個迴圈，接著為每一個爬蟲設定一個定時器，讓每一個爬蟲爬蟲一段時間，再執行下一個爬蟲即可。具體程式碼如下，此處設定每一個爬蟲執行3600秒 import os while True: os.system("scrapy crawl xinhuanet -s CLOSESPIDE

如何使用Java語言實現一個網頁爬蟲

　網路上有許多資訊，我們如何自動的獲取這些資訊呢？沒錯，網頁爬蟲~! 在這篇博文中，我將會使用java語言一步一步的編寫一個原型的網頁爬蟲，其實網頁爬蟲並沒有它聽起來那麼難。緊跟我的教程，我相

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

r.js 目錄 ref 抓取 {} attr 視頻 json clist 抓取目標：就是我自己的博客：http://www.cnblogs.com/ghostwu/ 需要實現的功能：抓取博客所有的文章標題，超鏈接，文章摘要，發布時間需要用到的庫： node.js自帶的h

實現多進程爬蟲的數據抓取

multi 函數返回參數 style 核數返回舉例 lis 導入要實現多進程爬蟲的數據抓取，要用到庫multiprocessing並導入Pool: from multiprocessing import Pool 接著導入進程池 pool = Pool(pro

Java實現網頁爬蟲

public class Demo { public static void main(String[] args) throws Exception { // 本程式內部異常過多為了簡便，不一Try，直接拋給虛擬機器 Long StartTime = Sy

1024_(即時通訊)使用node.js和socket.io實現多人聊天室

使用node.js和socket.io實現多人聊天室 2015年01月24日 03:24:54 遠古大猛獁閱讀數：2775 轉自： http://www.cnblogs.com/flyoung2008/archive/2012/07/19/2600132.html

所謂的網頁爬蟲用java程式碼來實現，此程式碼適合在maven專案中使用中使用，因為，程式碼中的類所對應的依賴可以讓maven下載。

//獲得httpClient物件 CloseableHttpClient httpClient = HttpClients.createDefault(); //url公司域名隨便 String url = "https://www.baidu.co

Node實現簡單爬蟲

1、新建一個專案新建一個資料夾安裝依賴 cnpm i --save PACKAGE_NAME 寫應用邏輯 2、核心邏輯實現爬蟲需要用到三個依賴，分別是express、superagent、cheerio superagent是個http方面的庫，可以發

Jmeter(三十五)_精確實現網頁爬蟲

meter實現了一個網站文章的爬蟲，可以把所有文章分類儲存到本地檔案中，並以文章標題命名它原理就是對網頁提交一個請求，然後把返回的所有值提取出來，利用ForEach控制器去實現遍歷。下面來介紹一下如何操作。首先我們需要對網頁提交一個請求。我們對一個站點發起一個請求，觀察一下返回值可以發現中間有很多中文

Java基於httpclient獲取網頁資料，實現簡單網路爬蟲

1、pom檔案引入httpclient依賴 <dependency> <groupId>org.apache.httpcompon

使用正則表示式實現網頁爬蟲。

網頁爬蟲：就是一個程式用於在網際網路中獲取指定規則的資料。思路： 1.為模擬網頁爬蟲，我們可以現在我們的tomcat伺服器端部署一個1.html網頁。（部署的步驟：在tomcat目錄的webapps目錄的ROOTS目錄下新建一個1.html。使用notepad++進行編輯，編輯內容為：

用mpvue與node實現一個簡單的爬蟲

序言爬蟲技術，在當今的互聯網裡面是佔據著非常重要的位置的。那什麼是爬蟲呢？亦即是按照一種特定的指令碼，請求指定的網頁並獲取資料的一段程式。而我們今天這個分享呢，就是利用node的幾個模組，配合mpvue實現小程式的爬蟲功能。需求分析 1. 爬蟲目標利用掃碼

多爬蟲實現之二 -- 爬蟲實現多個解析函式

目標完成spider中如果解析函式呼叫的封裝掌握getattr的方法完成通過meta在不通過的解析函式中傳遞資料的方法 1. 爬蟲實現多個解析函式的意義 2 響應物件的解析方法封裝為response物件封裝xpath、正則、json、等方法和屬

爬蟲--python3.6+selenium+BeautifulSoup實現動態網頁的資料抓取，適用於對抓取頻率不高的情況

說在前面：本文主要介紹如何抓取頁面載入後需要通過JS載入的資料和圖片本文是通過python中的selenium（pyhton包） + chrome（谷歌瀏覽器） + chromedrive（谷歌瀏覽器驅動） chrome 和chromdrive建議都下最新版本（參考地址：https://blog.c

C#實現簡單的網頁爬蟲

using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net; using System.Text; using System.Tex

利用Fiddler手機抓包對ONE·APP網頁爬蟲實現電影資訊微信Java開發

前言好久沒寫部落格了，打算把之前做的一個電影評分資訊推送的微信開發全程記錄一下，適合對網路爬蟲、微信開發感興趣的童鞋。在教程開始之前，我想先引出兩個問題（這次寫部落格假裝很有條理的樣子= =） 1. 為什麼想要抓取ONE電影的資料？因為我平時本身就

node js 進階-node的多核實現

從node 出現到現在，一直被我們熟知的是它的單執行緒模型，所有的任務都在一個執行緒中完成，從而免去了頻繁切換執行緒的開銷，以及減少資源互搶的問題。但是當我們的程式是CPU 密集型模型的時候node js 就顯得不再有那麼多優勢，儘管node js 擁有非同步機制，

jsoup+HttpURLConnection+多執行緒實現編寫網路爬蟲

jsoup HttpURLConnection 多執行緒網路爬蟲解析網頁內容開發平臺：Android Studio 3.1內容：利用jsoup解析爬取的頁面內容HttpURLConnection是Java的標準類，它繼承自URLConnection，可用於向指定網站

Node JS實現簡單網頁伺服器

通過Node JS實現一個簡單網頁伺服器。、通過瀏覽器開啟網頁輸入localhost：8888訪問Node_server,訪問到有hello world的網頁 //程式碼需執行在Node.JS環境

node實現多網頁爬蟲

相關推薦