python爬蟲-CrawlSpider的全站資料爬取

阿新 • • 發佈：2022-03-26

瞭解CrawlSpider

CrawlSpider是Spider的子類
它的建立方式是：

scrapy genspider -t crawl spiderName www.xxx.com

建立爬蟲檔案成功後，我們可以看到它和Spider最大的不同就是多了一個Rule

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

Rule：規則解析器
LinkExtractor：連結提取器
follow：能將新的請求網址也進行連結提取，以此來進行全站資料爬取。

連結提取器

根據指定規則提取連結
其中 allow='正則表示式' 來指定規則

規則解析器

將連結提取器提取到的連結進行指定規則的解析操作
其中 callback 來指定解析規則

使用CrawlSpider進行全站資料爬取

我們以 爬取w3school上所有技術的簡介 為例

觀察網頁

我們可以看見每一種技術都是在 /x.asp 連結下，所以這個就可以作為我們提取連結的規則

我們進入其中一個頁面，可以看見，技術的簡介位置。我們可以根據這個層級進行資料解析

編寫程式碼

"""
獲取w3school每個技術的簡介
"""

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class TestSpider(CrawlSpider):
    name = 'test'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.w3school.com.cn']

    rules = (
        Rule(LinkExtractor(allow=r'/[a-z].asp'), callback='parse_item', follow=False),
    )

    def parse_item(self, response):
        item = {}
        # item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        # item['name'] = response.xpath('//div[@id="name"]').get()
        # item['description'] = response.xpath('//div[@id="description"]').get()
        text_list = response.xpath('//*[@id="maincontent"]/div//text()').extract()
        text_list = ''.join(text_list)
        print(text_list)

既然我們能夠獲取簡介，那麼繼續編寫詳情頁的連結提取規則和資料解析方法，我們就能夠獲取更詳細的資料

python爬蟲-CrawlSpider的全站資料爬取

瞭解CrawlSpider CrawlSpider是Spider的子類它的建立方式是： scrapy genspider -t crawl spiderName www.xxx.com

Python爬蟲實戰案例之爬取喜馬拉雅音訊資料詳解

前言喜馬拉雅是專業的音訊分享平臺，彙集了有聲小說,有聲讀物,有聲書,FM電臺,兒童睡前故事,相聲小品,鬼故事等數億條音訊，我最喜歡聽民間故事和德雲社相聲集，你呢？

Python爬蟲進階：爬取梨視訊網站Top排行榜視訊資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲入門教程：爬取boss直聘招聘資料並做視覺化展示

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬蟲實現使用beautifulSoup4爬取名言網功能案例

本文例項講述了Python爬蟲實現使用beautifulSoup4爬取名言網功能。分享給大家供大家參考，具體如下：

Python Scrapy多頁資料爬取實現過程解析

1.先指定通用模板 url = \'https://www.qiushibaike.com/text/page/%d/\'#通用的url模板 pageNum = 1

python爬蟲學習01--電子書爬取

python爬蟲學習01--電子書爬取 1.獲取網頁資訊 import requests#匯入requests庫 \'\'\' 獲取網頁資訊

Python爬蟲例項——scrapy框架爬取拉勾網招聘資訊

本文例項為爬取拉勾網上的python相關的職位資訊,這些資訊在職位詳情頁上,如職位名,薪資,公司名等等.

scrapy 全站資料爬取

大部分的網站展示的資料都進行了分頁操作，那麼將所有頁碼對應的頁面資料進行爬取就是爬蟲中的全站資料爬取。

python爬蟲使用正則爬取網站的實現

本文章的所有程式碼和相關文章，僅用於經驗技術交流分享，禁止將相關技術應用到不正當途徑，濫用技術產生的風險與本人無關。

Python爬蟲實戰講解：爬取騰訊視訊

前言做了一些小專案，用的技術和技巧會比較散比較雜，寫一個小品文記錄一下，幫助熟悉。

Python爬蟲框架：scrapy爬取迅雷電影天堂最新電影！

專案開始第一步仍然是建立scrapy專案與spider檔案切換到工作目錄兩條命令依次輸入

Python爬蟲：使用Selenium爬取指定上市公司(如浦發銀行)的今年公告資訊

1 from selenium import webdriver#匯入庫 2 from selenium.webdriver.common.keys import Keys 3 from bs4 import BeautifulSoup

Python爬蟲入門教程：爬取豆瓣小說文學

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲進階之爬取某視訊並下載的實現

這幾天在家閒得無聊，意外的挖掘到了一個資源網站（你懂得），但是網速慢廣告多下載不了種種原因讓我突然萌生了爬蟲的想法。

Python爬蟲進階之爬取某視訊並下載，沒有廣告的視訊看起來不爽嗎？

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲入門實戰專案--爬取新筆趣閣小說

1、網頁檢視進入到全部小說，這就是我們要爬取的小說，這些夠看很長時間了

Python爬蟲正則表達爬取b站所有動漫的評分

import requests import re import csv wq=1 while(wq<163): dat={ \"season_version\":\"-1\", \"spoken_language_type\":\"-1\",

scrapy框架全站資料爬取

前言每個網站都有很多頁碼，將網站中某板塊下的全部頁碼對應的頁面資料進行爬取

python網路爬蟲案例：批量爬取百度貼吧頁面資料

⾸先我們建立⼀個 python⽂件, tiebaSpider.py，我們要完成的是，輸⼊⼀個百度貼吧的地址，⽐如：