Python爬蟲基礎講解（二十六）：scrapy.Spider

阿新 • • 發佈：2021-06-25

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看

https://space.bilibili.com/523606542

Python學習交流群：1039649593

Spider類定義瞭如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進連結)以及如何從網頁的內容中提取結構化資料(爬取item)。換句話說，Spider就是您定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。

對spider來說，爬取的迴圈類似下文:

以初始的URL初始化Request，並設定回撥函式。當該request下載完畢並返回時，將生成response，並作為引數傳給該回調函式。
spider中初始的request是通過呼叫start_requests()來獲取的。start_requests()讀取start_urls中的URL，並以parse為回撥函式生成Request。

在回撥函式內分析返回的(網頁)內容，返回ltem物件或者Request或者一個包括二者的可迭代容器。返回的Request物件之後會經過Scrapy處理，下載相應的內容，並呼叫設定的callback函式(函式可相同)。
在回撥函式內，您可以使用選擇器(Selectors)(您也可以使用BeautifulSoup, Ixml或者您想用的任何解析器)來分析網頁內容，並根據分析的資料生成item。
最後，由spider返回的item將被存到資料庫(由某些ltem Pipeline處理)或使用Feed exports存入到檔案中。

雖然該迴圈對任何型別的spider都(多少)適用，但Scrapy仍然為了不同的需求提供了多種預設spider。之後將討論這些spider。

Spider

scrapy.spider.Spider是最簡單的spider。每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。其僅僅請求給定的start_urls / start_requests，並根據返回的結果(resulting responses)呼叫spider的 parse方法。

name

定義spider名字的字串(string)。spider的名字定義了Scrapy如何定位(並初始化) spider，所以其必須是唯一的。不過您可以生成多個相同的spider例項(instance)，這沒有任何限制。name是spider最重要的屬性，而且是必須的。

如果該spider爬取單個網站(single domain)，一個常見的做法是以該網站(domain)(加或不加字尾)來命名spider。例如，如果spider爬取 mywebsite.com，該spider通常會被命名為mywebsite。

allowed_domains

可選。包含了spider允許爬取的域名(domain)列表(list)。當OffsiteMiddleware啟用時，域名不在列表中的URL不會被跟進。

start_urls

URL列表。當沒有制定特定的URL時，spider將從該列表中開始進行爬取。因此，第一個被獲取到的頁面的URL將是該列表之一。後續的URL將會從獲取到的資料中提取。

start_requests()

該方法必須返回一個可迭代物件(iterable)。該物件包含了spider用於爬取的第一個Request。

當spider啟動爬取並且未制定URL時，該方法被呼叫。當指定了URL時,make_requests_from_url()將被呼叫來建立Request物件。該方法僅僅會被Scrapy呼叫一次，因此您可以將其實現為生成器。

該方法的預設實現是使用start_urls的url生成Request。

如果您想要修改最初爬取某個網站的Request物件，您可以重寫(override)該方法。例如，如果您需要在啟動時以POST登入某個網站，你可以這麼寫:

def start_requests(self) :
    return [scrapy.FormRequest("http : / /ww. example.com/login"，
        formdata={ 'user' : 'john', ' pass ' : 'secret'},
        ca77back=se1f.1ogged_in)]

def logged_in(self，response) :
## here you would extract links to follow and return Requests for
## each of them，with another ca77back
pass

parse

當response沒有指定回撥函式時，該方法是Scrapy處理下載的response的預設方法。

parse負責處理response並返回處理的資料以及(/或)跟進的URL。Spider對其他的Request的回撥函式也有相同的要求。

該方法及其他的Request回撥函式必須返回一個包含Request 及(或) ltem的可迭代的物件。

引數: response-用於分析的response

啟動方式

start_urls

start_urls是一個列表

start_requests

使用start_requests()重寫start_ur1s，要使用Request()方法自己傳送請求:

def start_requests(se7f):
    """重寫start_urls 規則"""
    yield scrapy.Request(ur1='http://quotes.toscrape.com/page/1/'cal1back=self.parse)

scrapy.Request

scrapy.Request是一個請求物件，建立時必須制定回撥函式。

資料儲存

可以使用-o將資料儲存為常見的格式(根據字尾名儲存)
支援的格式有下面幾種：

json
jsonlines
jl
csv
xml
marshal
pickle

使用方式:

scrapy crawl quotes2 -o a.json

案例: Spider樣例

##一*- coding: utf-8 -*-

import scrapy

clTass Quotes2spider(scrapy.spider):
    name = 'quotes2'
    a7lowed_domains = [ 'toscrape.com ' ]
    start_urls = [ ' http: //quotes.toscrape.com/ page/2/ ']

    def parse(self，response):
        quotes = response.css('.quote ' )
        for quote in quotes:
            text = quote.css( '.text: : text ' ).extract_first()
            auth = quote.css( '.author : :text ').extract_first()
            tages = quote.css('.tags a: :text' ).extract()
            yield dict(text=text , auth=auth, tages=tages)

Python爬蟲基礎講解（二十六）：scrapy.Spider

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看

Python學習交流群：1039649593

Python爬蟲基礎講解（二十六）：scrapy.Spider

Python爬蟲基礎講解（二十五）：scrapy 框架結構

Python爬蟲基礎講解（二十七）：scrapy 框架—ltem和scrapy.Request

Python爬蟲基礎講解（二十四）：第一個scrapy爬蟲

Flink基礎（二十六）：FLINK SQL(二)查詢語句（二）操作符（一）

大資料實戰（二十六）：電商數倉（十九）之使用者行為資料採集（十九）數倉搭建之DWD層（一）DWD層啟動表資料解析

資料視覺化基礎專題（二十八）：Pandas基礎（八）合併（一）concat

NLP（二十六）：如何微調 GPT-2 以生成文字

pytorch（二十六）：自動編碼器

SpringCloud微服務實戰——搭建企業級開發框架（二十六）：自定義擴充套件OAuth2實現簡訊驗證碼登入

面試連環炮系列（二十六）：什麼情況下JVM頻繁發生full GC

python介面自動化（二十六） requests-html爬蟲框架

Flink基礎（三十六）：FLINK SQL(十二) 函式（一）概述

ES基礎（二十六）Term & Phrase Suggester

Spring Cloud Alibaba-Docker（二十六）

Dubbo原始碼解析（二十六）遠端呼叫——http協議

Java 從入門到進階之路（二十六）

Hadoop基礎（二十一）：Shuffle機制（二）

Hadoop基礎（二十五）：OutputFormat資料輸出

Hadoop基礎（二十九）：資料清洗（ETL）（二）複雜解析版

Python爬蟲基礎講解（二十六）：scrapy.Spider

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看

相關推薦