node.js 小爬蟲抓取網頁資料（2）

阿新 • • 發佈：2019-02-10

node.js 小爬蟲抓取網頁資料

在原來的基礎上，採用了promise的模組，使其可以一次性多頁面的爬取網頁資料。

var http = require('http')
var Promise = require('promise')
var cheerio = require('cheerio')

var baseUrl = 'http://www.imooc.com/learn/'
var url = 'http://www.imooc.com/learn/348'
var vedioIds = ['348','637','259','75','197']

function filterChapters(html) {
    var $ = cheerio.load(html)
    var chapters = $('.chapter')
    //var title = $('#main .path span').text();
    var title = $('.path').children('a').children('span').text().trim()

    // var level = $($('.static-item.l')[1]).find('span').last().text().trim() 
    // console.log(level)

    // courseData = {
    //     title: title,
    //     number,
    //     videos:[{
    //         chapterTitle: '',
    //         videos: [{
    //             title: '',
    //             id: ''
    //         }]
    //     }]
    // }

    var courseData = {
        title: title,
        number: 0,
        videos: []    
    }

    chapters.each(function() {
        var chapter = $(this) // $(this)的用法可以讓回撥方法省略引數
        var chapterTitle = chapter.find('strong').contents().filter(function() {
            return this.nodeType === 3; // 設定一個過濾器拿到文字內容
        }).text().trim();
        var videos = chapter.find('ul').children()
        var chapterData = { // 定義一個json以接收資料
            chapterTitle : chapterTitle,
            videos : []
        }

        videos.each(function() {
            var video = $(this).find('a')
            var temp = video.text().trim()
            var arr = temp.split('\n') // 多層標籤的文字都拼到一起了，要拆開，取用需要的值
            var videoTitle = arr[0].trim() + ' ' + arr[1].trim()
            var id = video.attr('href').split('video/')[1].trim()

            chapterData.videos.push({
                title : videoTitle,
                id : id
            })
        })

        courseData.videos.push(chapterData)
    })

    return courseData
}

// 輸出函式
function printCoursesData(coursesData) {
    coursesData.forEach(function(courseData) {
        console.log('title: ' + courseData.title + '\n')
        //console.log('number: ' + courseData.number)

        courseData.videos.forEach(function(item) {
            var chapterTitle = item.chapterTitle

            console.log(chapterTitle)

            item.videos.forEach(function(vedio) {
                console.log('---[' + vedio.id + ']' + vedio.title.trim())
            })
        })

        console.log('------------------------------------' + '\n')
    })
}

function getPageAsync(url) {
    return new Promise(function(resolve, reject) {
        console.log('正在爬取 ' + url)

        // 拿到原始碼，呼叫方法進行解析及輸出
        http.get(url, function(res) {
            var html = ''

            res.on('data', function(data) {
                html += data
            })

            res.on('end', function() {
                resolve(html)
                // var courseData = filterChapters(html)
                // printCourseData(courseData)
            })
        }).on('error', function(e) {
            reject(e)
            console.log('獲取課程資料出錯！')
        })
    })
}

var fetchCourseArray = []

vedioIds.forEach(function(id) {
    fetchCourseArray.push(getPageAsync(baseUrl + id))
})

Promise
    .all(fetchCourseArray)
    .then(function(pages) {
        var coursesData = []

        pages.forEach(function(html) {
            var course = filterChapters(html)

            coursesData.push(course)
        })

        // coursesData.sort(function(a, b) {
        //     return a.number < b.number
        // })

        printCoursesData(coursesData)
    })

node.js 小爬蟲抓取網頁資料（2）

node.js 小爬蟲抓取網頁資料在原來的基礎上，採用了promise的模組，使其可以一次性多頁面的爬取網頁資料。 var http = require('http') var Promise = require('promise') var cheerio = re

Java抓取網頁資料（原網頁+Javascript返回資料）

轉載請註明出處！有時候由於種種原因，我們需要採集某個網站的資料，但由於不同網站對資料的顯示方式略有不同！本文就用Java給大家演示如何抓取網站的資料：（1）抓取原網頁資料；（2）抓取網頁Jav

Python爬蟲 BeautifulSoup抓取網頁資料並儲存到資料庫MySQL

最近剛學習Python，做了個簡單的爬蟲，作為一個簡單的demo希望幫助和我一樣的初學者程式碼使用python2.7做的爬蟲抓取51job上面的職位名，公司名，薪資，釋出時間等等直接上程式碼，程式碼中註釋還算比較清楚，沒有安裝mysql需要遮蔽掉相關程式碼：#!/u

【php網頁爬蟲】php抓取網頁資料

外掛介紹： PHP Simple HTML DOM解析類：Simple HTML DOM parser 幫我們很好地解決了使用 php html 解析問題。可以通過這個php類來解析html文件，對其中的html元素進行操作 (PHP5+以上版本)。使用方法： 1

JAVA使用Gecco爬蟲抓取網頁內容

log pro 指定 get www. error 一個 log4j java類 JAVA 爬蟲工具有挺多的，但是Gecco是一個挺輕量方便的工具。先上項目結構圖。這是一個 JAVASE的 MAVEN 項目，要添加包依賴，其他就四個文件。log4j.propertie

爬蟲抓取網頁來下載小說

程序 rip compile pla ons pos 獲取 except res 利用Python3 編寫爬蟲，從筆趣閣抓個小說下載。 import re import urllib.request import time import easygui as g # 輸

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

有搜尋條件根據url抓取網頁資料(java爬取網頁資料)

最近有一個任務抓取如下圖的網頁資料要獲取前一天的資料進行翻頁抓取資料並存入資料庫如果就只是抓取當前頁的資料沒有條件和翻頁資料這個就比較簡單了但是要選取前一天的資料,還有分頁資料一開始的思路就想錯了(開始想的是觸發查詢按鈕和

python抓取網頁資料處理後視覺化

抓取文章的連結，訪問量儲存到本地 1 #coding=utf-8 2 import requests as req 3 import re 4 import urllib 5 from bs4 import BeautifulSoup 6 import sys 7 import code

爬蟲——爬取網頁資料存入表格

最近由於個人需要，從相關書籍以及網上資料進行爬蟲自學，目標網址為http://mzj.beijing.gov.cn，對其內容進行整理篩選，存入excel格式。首先是對錶格的內容進行設定，編碼格式定義為utf-8，新增一個sheet的表格，其中head為表頭的內容，定義之後，利用sheet.wr

JAVA爬蟲爬取網頁資料資料庫中,並且去除重複資料

pom檔案  <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId&

Python爬蟲抓取大資料崗位招聘資訊（51job為例）

簡單介紹一下爬蟲原理。並給出 51job網站完整的爬蟲方案。爬蟲基礎知識資料來源網路爬蟲的資料一般都來自伺服器的響應結果，通常有html和json資料等，這兩種資料也是網路爬蟲的主要資料來源。其中html資料是網頁的原始碼，通過瀏覽器-檢視原始碼可

java演算法-網路爬蟲抓取網頁並儲存

從一個URL中讀取網頁,如果是同一個網站的就儲存,URL裡面包含URL列表,繼續抓取,抓完全部使用多執行緒 A執行緒讀取URL內容 B執行緒存檔案 C執行緒解析URL 發現新URL從A執行緒讀取完的內容可以放到一個佇列裡面,B執行緒來讀取,C執行緒解析URL 問題,如果這個佇列

Python爬蟲抓取動態資料

一個月前實習導師佈置任務說通過網路爬蟲獲取深圳市氣象局釋出的降雨資料，網頁如下：心想，爬蟲不太難的，當年跟zjb爬煎蛋網無（mei）聊（zi）圖的時候，多麼清高。由於接受任務後的一個月考試加作業一大堆，導師也不催，自己也不急。但是，導師等我一個月都得讓我來寫意味著這

Python爬蟲爬取網頁資料並存儲（一）

環境搭建 1.需要事先安裝anaconda（或Python3.7）和pycharm *anaconda可在中科大映象下下載較快 2.安裝中遇到的問題： *anaconda（記得安裝過程中點新增路徑到path裡，沒新增的話手動新增：計算機右鍵屬性——高階系統設

Python抓取網頁資料的終極辦法

假設你在網上搜索某個專案所需的原始資料，但壞訊息是資料存在於網頁中，並且沒有可用於獲取原始資料的API。所以現在你必須浪費30分鐘寫指令碼來獲取資料（最後花費 2小時）。這不難但是很浪費時間。 Pandas庫有一種內建的方法，可以從名為re

python的BeautifulSoup實現抓取網頁資料

1環境：pycharm，python3.4 2.原始碼解析 import requests import re from bs4 import BeautifulSoup #通過requests.get獲取整個網頁的資料 def getHtmlText(url):

玩玩小爬蟲——抓取動態頁面

在ajax橫行的年代，很多網頁的內容都是動態載入的，而我們的小爬蟲抓取的僅僅是web伺服器返回給我們的html，這其中就跳過了js載入的部分，也就是說爬蟲抓取的網頁是殘缺的，不完整的，下面可以看下部落格園首頁從首頁載入中我們看到，在頁面呈現後，還會有5

nodejs爬蟲抓取非同步資料案例

在csdn上圖片顯示有問題，可以去我的個人部落格上檢視原版： http://tosim.top/2017/07/21/nodejs%E7%88%AC%E8%99%AB%E6%8A%93%E5%8F%96%E5%BC%82%E6%AD%A5%E6%95%B0%E

抓取網頁資料 A標籤的HREF 值

在工作中，我們有時候需要從特定的網頁中抓取我們想要的資料，由於工作的需要，我給大家推薦一個專門的抓取類：Winista.HtmlParser.dll 當我們需要從有規律的網頁中提取資料時，如table tr td; ul li之類的，如果用正則表示式，或者做字串的處理，會非常

node.js 小爬蟲抓取網頁資料（2）

相關推薦