Python爬蟲基礎講解（二十七）：scrapy 框架—ltem和scrapy.Request

阿新 • • 發佈：2021-07-01

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看

https://space.bilibili.com/523606542

Python學習交流群：1039649593

ltem

Item是儲存爬取資料的容器,它的使用方法和字典類似。不過,相比字典,Item提供了額外的保護機制,可以避免拼寫錯誤或者定義欄位錯誤。

建立Item需要繼承scrapy.Item類,並且定義型別為scrapy.Field的欄位。在建立專案開始的時候Item檔案是這樣的。

import scrapy

class Tutorial1tem(scrapy.Item):
    #define the fields for your item here 7ike:#參照下面這個引數定義你的欄位 

    #name = scrapy.Fie1d()
    pass

在儲存資料的時候可以每次初始化一個字典等格式，但是最方便，最好的儲存方式就是使用Scrapy自帶的ltem資料結構了。

我們學習了從頁面中提取資料的方法，接下來學習如何封裝爬取到的資料。應該用怎樣的資料結構來維護這些零散的資訊欄位呢?最容易想到是使用Python字典(dict)。

回顧之前的程式碼

class Quotesspider(scrapy.spider):
    name = 'quotes'
    a1lowed_domains = ['toscrape.com']
    start_ur1s = [' 
http: //quotes.toscrape.com/']

def parse(self,response):
    quotes = response.css( '.quote ' )

    for quote in quotes :
        text = quote.css('.text: :text ').get()
        author = quote.css( '.author : :text ').get()
        tags = quote.css( '.tag : :text ' ).getall()

    yield {
    'text':text,
     
'author':author,
    'tags ' : tags,
    }

在該案例中，我們便使用了Python字典儲存一本書的資訊，但字典可能有以下缺點:

(1)無法一目瞭然地瞭解資料中包含哪些欄位，影響程式碼可讀性。
(2缺乏對欄位名字的檢測，容易因程式設計師的筆誤而出錯。
(3)不便於攜帶元資料（傳遞給其他元件的資訊)。

ltem和Field

Scrapy提供了以下兩個類，使用者可以使用它們自定義資料類(如書籍資訊)，封裝爬取到的資料:

1. ltem基類

資料結構的基類，在items.py中定義資料結構時，需要繼承自該基類。

2. Field類

用來描述自定義資料類包含哪些欄位(如name、price等)。

自定義一個數據類，只需繼承ltem，並建立一系列Field物件的類屬性即可。

以定義書籍資訊quote為例，它包含個欄位，分別為書的名字text、author和tags，程式碼如下:

#特殊的字典結構可以在scrapy中傳遞資料
class TutorialItem(scrapy.Item):
    #Field欄位
    #就是類似於產生一個類似字典格式的資料擁有字典的一些屬性
    #欄位預設為空
    #我們可以通過例項化像著鍵賦值但是如果沒有寫這個鍵就不能賦值但是字典可以
    text = scrapy. Field()
    author = scrapy.Fie1d()
    tags = scrapy . Fie1d()

ltem支援字典介面，因此Tutorialltem在使用上和Python字典類似。

對欄位進行賦值時，Tutorialltem內部會對欄位名進行檢測，如果賦值一個沒有定義的欄位，就會丟擲異常(防止因使用者粗心而導致錯誤)

scrapy.Request

Request和Response 物件，用於爬網網站。
Request物件用來描述一個HTTP請求，下面是其構造器方法的引數列表:

Request(url，ca11back=None，method='GET', headers=None，body=None,
        cookies=None，meta=None，encoding='utf-8 '，priority=O,
        dont_filter=False，errback=None，flags=None，cb_kwargs=None)

url(字串) -此請求的URL
callback (callable)-將以請求的響應（一旦下載)作為第一個引數呼叫的函式。有關更多資訊，請參見下面的將其他資料傳遞給回撥函式。如果"請求'未指定回撥，parse()則將使用"Spider"方法。請注意，如果在處理過程中引發異常，則會呼叫errback.
method(字串)-此請求的HTTP方法。預設為‘GET'。
meta (dict) - Request.meta屬性的初始值。如果給出，則在此引數中傳遞的字典將被淺表複製。
headers (dict)-請求頭。dict值可以是字串(對於單值標頭）或列表(對於多值標頭)。如果None作為值傳遞，則將根本不傳送HTTP標頭。

c1ass Quotesspider(scrapy.spider):
    name = 'quotes_3'
    
    allowed_domains = ['toscrape.com']
    
    start__ur1s = ['http://quotes.toscrape.com/']

def parse(self，response):
    quotes = response.css( '.quote ' )

    for quote in quotes:
        text = quote.css( '.text: :text ' ).get()
        author = quote.css( '.author : :text ' ).get()
        tags = quote.css( '.tag : :text ' ). geta11()
        yield Qd01QuotesItem(text=text，author=author，tags=tags)

    next_page = response.css( '.next a: :attr(href) ' ).get()
    if next_page:
        next__ur1 = 'http: //quotes.toscrape.com' + next_page
        yield scrapy. Request(next_url, cal7back=self.parse)

Python爬蟲基礎講解（二十七）：scrapy 框架—ltem和scrapy.Request

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看 https://space.bilibili.com/523606542

Python爬蟲基礎講解（二十四）：第一個scrapy爬蟲

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看 https://space.bilibili.com/523606542

Python爬蟲基礎講解（二十五）：scrapy 框架結構

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看 https://space.bilibili.com/523606542

Python爬蟲基礎講解（二十六）：scrapy.Spider

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看 https://space.bilibili.com/523606542

linux原始碼解讀（二十七）：協程原理和背景（一）

　　1、協程原理闡述（1）為了提升資料處理的效率，使用者的應用程式通常採用多執行緒的形式，典型的就是生產者-消費者模型：生產者往共享記憶體塊寫資料，消費者從共享記憶體塊讀資料後處理！這種經典的模型具體落

Flink基礎（二十七）：FLINK SQL(三)查詢語句（三）操作符（二）

5 OrderBy & Limit 操作符描述 Order By批處理流處理注意：流處理結果需主要根據時間屬性按照升序進行排序。支援使用其他排序屬性。

Flink例項（六十七）：自定義時間和視窗的操作符（十二）Flink事件時間何時觸發視窗計算

目錄 1.1 瀏覽本部落格前你需要了解的知識點 flink內部是如何劃分視窗的？

資料視覺化基礎專題（二十八）：Pandas基礎（八）合併（一）concat

一合併 1Concatenating objects Theconcat()function (in the main pandas namespace) does all of the heavy lifting of performing concatenation operations along an axis while performing optional set logic

面試連環炮系列（二十七）：如何保證快取與資料庫的資料一致性

1. 如何保證快取與資料庫的資料一致性？要保持資料強一致性，只能將讀請求和寫請求序列化，在同一個記憶體佇列裡執行。但是序列化會導致系統的吞吐量大幅度降低，多用幾倍的機器去支撐線上的請求。

Flink例項（二十一）：自定義時間和視窗的操作符（二）KeyedProcessFunction（二）

KeyedProcessFunction 　　KeyedProcessFunction用來操作KeyedStream。KeyedProcessFunction會處理流的每一個元素，輸出為0個、1個或者多個元素。所有的Process Function都繼承自RichFunction介面，所以都有open()、

Hadoop基礎（五十七）：其他面試題ES（二）

來源：https://mp.weixin.qq.com/s/MU87hW3W2S1Fi6CqnnXAGA 問題列表和答案來自國外部落格（原文答案不準確，有錯誤），為避免誤導，我對每個問題做了屬於自己的理解和解答。

ES基礎（二十七）自動補全與基於上下文的提示

課程demo DELETE articles PUT articles { \"mappings\": { \"properties\": { \"title_completion\":{ \"type\": \"completion\"

Java 從入門到進階之路（二十七）

在之前的文章我們介紹了一下 Java 中的集合框架中的Collection，本章我們來看一下 Java 集合框架中的 Map。

Hadoop基礎（二十一）：Shuffle機制（二）

4WritableComparable排序 1．排序的分類 2．自定義排序WritableComparable （1）原理分析 bean物件做為key傳輸，需要實現WritableComparable介面重寫compareTo方法，就可以實現排序。

Hadoop基礎（二十五）：OutputFormat資料輸出

1 OutputFormat介面實現類 2自定義OutputFormat 3 自定義OutputFormat案例實操 1．需求過濾輸入的log日誌，包含atguigu的網站輸出到e:/atguigu.log，不包含atguigu的網站輸出到e:/other.log。

Hadoop基礎（二十九）：資料清洗（ETL）（二）複雜解析版

資料清洗案例實操-複雜解析版 1．需求對Web訪問日誌中的各欄位識別切分，去除日誌中不合法的記錄。根據清洗規則，輸出過濾後的資料。

Hadoop基礎（二十八）：資料清洗（ETL）（一）簡單解析版

資料清洗案例實操-簡單解析版在執行核心業務MapReduce程式之前，往往要先對資料進行清洗，清理掉不符合使用者要求的資料。清理的過程往往只需要執行Mapper程式，不需要執行Reduce程式。

Hadoop基礎（四十七）：查詢

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 查詢語句語法： [WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available

《第一行程式碼》閱讀筆記（二十七）——多媒體播放Demo

因為音訊和視訊播放十分相似，所以這裡筆者自己製作了一個簡單的Demo。讓我們一起來看下吧。

劍指offer（五十七）：二叉樹的下一個結點

題目描述給定一個二叉樹和其中的一個結點，請找出中序遍歷順序的下一個結點並且返回。注意，樹中的結點不僅包含左右子結點，同時包含指向父結點的指標。

Python爬蟲基礎講解（二十七）：scrapy 框架—ltem和scrapy.Request

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看

ltem

ltem和Field

1. ltem基類

2. Field類

scrapy.Request

相關推薦