Scrapy入門到放棄05：Item和Pipeline，資料和儲存

阿新 • • 發佈：2022-12-07

前言

“又回到最初的起點，呆呆地站在鏡子前”。

本來這篇是打算寫Spider中介軟體的，但是因為這一塊涉及到Item，所以這篇文章先將Item講完，順便再講講Pipeline，然後再講Spider中介軟體。

Item和Pipeline

依舊是先上架構圖。

從架構圖中可以看出，當下載器從網站獲取了網頁響應內容，通過引擎又返回到了Spider程式中。我們在程式中將響應內容通過css或者xpath規則進行解析，然後構造成Item物件。

而Item和響應內容在傳遞到引擎的過程中，會被Spider中介軟體進行處理。最後Pipeline會將引擎傳遞過來的Item持久化儲存。

總結：Item是資料物件，Pipeline是資料管道。

Item

Item說白了就是一個類，裡面包含資料欄位。目的是為了讓你把從網頁解析出來的目標資料進行結構化。需要注意的是，我們通常要先確定Item的結構，然後再在程式中構造、在pipeline中處理。

這裡依舊還是以斗羅大陸為例。

Item類定義

Item在items.py中定義。我們先看看此py檔案中的Item定義模板。

如圖所示，即是模板，要點有二。

Item類繼承scrapy.Item
欄位 = scrapy.Field()

這裡根據我們在斗羅大陸頁面需要採集的資料欄位，進行Item定義。

class DouLuoDaLuItem(scrapy.Item):
    name = scrapy.Field()
    alias = scrapy.Field()
    area = scrapy.Field()
    parts = scrapy.Field()
    year = scrapy.Field()
    update = scrapy.Field()
    describe = scrapy.Field()

Item資料構造

當我們將Item類定義之後，就要在spider程式中進行構造，即填充資料。

# 匯入Item類，ScrapyDemo是包名
from ScrapyDemo.items import DouLuoDaLuItem
# 構造Item物件
item = DouLuoDaLuItem
item['name'] = name
item['alias'] = alias
item['area'] = area
item['parts'] = parts
item['year'] = year
item['update'] = update
item['describe'] = describe

程式碼如上，一個Item資料物件就被構造完成。

發射Item到Pipeline

在Item物件構造完成之後，還需要一行程式碼就能將Item傳遞到Pipeline中。

yield item

至此，Pipeline，我來了。

Pipeline

Pipeline直譯就是管道，負責處理Item資料，從而實現持久化。說白了就是將資料放到各種形式的檔案、資料庫中。

功能

官方給出的Pipeline功能有：

清理HTML資料
驗證資料(檢查item包含某些欄位)
查重(並丟棄)
將爬取結果儲存到資料庫

在實際開發中，4的場景比較多。

定義Pipeline

Pipeline定義在pipeline.py中，這裡依舊先看看Pipeline給定的模板。

如圖，只實現了process_item()方法，來處理傳遞過來的Item。但是在實際開發中，我們通常要實現三個方法：

__init__：用來構造物件屬性，例如資料庫連線等
from_crawler：類方法，用來初始化變數
process_item：核心邏輯程式碼，處理Item

這裡，我們就自定義一個Pipeline，將Item資料放入資料庫。

配置Pipeline

和middleware一樣在settings.py中進行配置，這裡對應的是ITEM_PIPELINE引數。

ITEM_PIPELINES = {
    'ScrapyDemo.pipelines.CustomDoLuoDaLuPipeline': 300
}

Key依舊對應的是類全路徑，Value為優先順序，數字越小，優先順序越高。Item會根據優先順序依此通過每個Pipeline，這樣可以在每個Pipeline中對Item進行處理。

為了直觀，後續我將Pipeline在程式碼中進行區域性配置。

pipeline連線資料庫

1. 配置資料庫屬性

我們首先在setttings.py中將資料庫的IP、賬號、密碼、資料庫名稱配置，這樣在pipeline中就可直接讀取，並建立連線。

MYSQL_HOST = '175.27.xx.xx'
MYSQL_DBNAME = 'scrapy'
MYSQL_USER = 'root'
MYSQL_PASSWORD = 'root'

2. 定義pipeline

主要使用pymysql驅動連線資料庫、twisted的adbapi來非同步操作資料庫，這裡非同步劃重點，基本上非同步就是效率、快的代名詞。

import pymysql
from twisted.enterprise import adbapi
from ScrapyDemo.items import DouLuoDaLuItem


class CustomDoLuoDaLuPipeline(object):

    def __init__(self, dbpool):
        self.dbpool = dbpool

    @classmethod
    def from_crawler(cls, crawler):
        # 讀取settings中的配置
        params = dict(
            host=crawler.settings['MYSQL_HOST'],
            db=crawler.settings['MYSQL_DBNAME'],
            user=crawler.settings['MYSQL_USER'],
            passwd=crawler.settings['MYSQL_PASSWORD'],
            charset='utf8',
            cursorclass=pymysql.cursors.DictCursor,
            use_unicode=False
        )
        # 建立連線池，pymysql為使用的連線模組
        dbpool = adbapi.ConnectionPool('pymysql', **params)
        return cls(dbpool)

    def process_item(self, item, spider):
        if isinstance(item, DouLuoDaLuItem):
            query = self.dbpool.runInteraction(self.do_insert, item)
            query.addErrback(self.handle_error, item, spider)
        return item

    # 執行資料庫操作的回撥函式
    def do_insert(self, cursor, item):
        sql = 'insert into DLDLItem(name, alias, area, parts, year, `update`, `describe`) values (%s, %s, %s, %s, %s, %s, %s)'
        params = (item['name'], item['alias'], item['area'], item['parts'], item['year'], item['update'], item['describe'])
        cursor.execute(sql, params)

    # 當資料庫操作失敗的回撥函式
    def handle_error(self, failue, item, spider):
        print(failue)

這裡要重點強調一下上面程式碼中的幾個點。

process_item()中為什麼使用isinstance來判斷item的型別？

這個是為了解決多種Item經過同一個Pipiline時，需要呼叫不同的方法來進行資料庫操作的場景。如下圖所示：

不同的Item具有不同的結構，意味著需要不同的sql來插入到資料庫中，所以會先判斷Item型別，再呼叫對應方法處理。

sql中update、describe欄位為什麼要加反引號？

update、describe和select一樣，都是MySQL的關鍵字，所以如果想要在欄位中使用這些單詞，在執行sql和建表語句彙總都要加上反引號，否則就會報錯。

3. 生成Item放入pipeline

即將迎面而來的依舊是熟悉的程式碼，Item結構在上面的items.py中已經定義。pipeline也將在程式碼內區域性配置，這個不清楚的可以看第二篇文章。

import scrapy
from ScrapyDemo.items import DouLuoDaLuItem

class DouLuoDaLuSpider(scrapy.Spider):
    name = 'DouLuoDaLu'
    allowed_domains = ['v.qq.com']
    start_urls = ['https://v.qq.com/detail/m/m441e3rjq9kwpsc.html']

    custom_settings = {
        'ITEM_PIPELINES': {
            'ScrapyDemo.pipelines.CustomDoLuoDaLuPipeline': 300
        }
    }

    def parse(self, response):
        name = response.css('h1.video_title_cn a::text').extract()[0]
        common = response.css('span.type_txt::text').extract()
        alias, area, parts, year, update = common[0], common[1], common[2], common[3], common[4]
        describe = response.css('span._desc_txt_lineHight::text').extract()[0]
        item = DouLuoDaLuItem()
        item['name'] = name
        item['alias'] = alias
        item['area'] = area
        item['parts'] = parts
        item['year'] = year
        item['update'] = update
        item['describe'] = describe
        print(item)
        yield item

4.程式測試

啟動程式，可以看到控制檯列印了已經啟用的pipeline列表，同時也可以看到item的內容。程式執行結束後，我們去資料庫檢視資料是否已經放到資料庫。

如圖，在資料庫的DLDLItem表中已經可以查到資料。

結語

Item和Pipeline讓資料結構儲存流程化，我們可以定義並配置多個Pipeline，當yield item之後，資料就會根據儲存在檔案裡、資料庫裡

與之相關的還有一個ItemLoaders，我基本上沒有用過，但是後面還是當做擴充套件來寫一下。期待下一次相遇。

Scrapy入門到放棄05：Item和Pipeline，資料和儲存

前言 “又回到最初的起點，呆呆地站在鏡子前”。本來這篇是打算寫Spider中介軟體的，但是因為這一塊涉及到Item，所以這篇文章先將Item講完，順便再講講Pipeline，然後再講Spider中介軟體。

Scrapy入門到放棄05：讓Item在Pipeline中飛一會兒

春風會吹綠冰封的海角天涯琴絃流淌著歲月喑啞前言 \"又回到最初的起點，呆呆地站在鏡子前\"。

Scrapy入門到放棄03：理解settings配置，監控Scrapy引擎

程式碼未動、配置先行。前言程式碼未動，配置先行。本篇文章主要講述一下Scrapy中的配置檔案settings.py的引數含義，以及如何去獲取一個爬蟲程式的執行效能指標。

分庫分表：如何做到永不遷移資料和避免熱點？

分庫分表：如何做到永不遷移資料和避免熱點？本文轉載自微信公眾號：MarkerHub

工信部：加強智慧網聯汽車資料和網路安全管理，規範軟體線上升級

8 月 12 日訊息工信部發布關於加強智慧網聯汽車生產企業及產品准入管理的意見，其中提出，強化資料安全管理能力。企業應當建立健全汽車資料安全管理制度，依法履行資料安全保護義務，明確責任部門和負責人。加強網路

scikit基礎與機器學習入門（5）歸一化，標準化和正則化，二值化

歸一化，標準化和正則化，二值化概念和含義資料歸一化：將資料集中某一列數值特徵的值縮放到0-1區間內

李佳琦迴應歐萊雅面膜差價問題：對消費者不公，暫停和歐萊雅旗艦店一切合作

11 月 17 日訊息，近日李佳琦歐萊雅雙 11 價格引發爭議，現在有了新的進展。今天晚間，李佳琦直播間官方微博發文迴應稱：針對 10 月 20 日李佳琦所售歐萊雅面膜差價問題，公司已與歐萊雅多次協商。事情未解決前，李

蘋果 2022 款 MacBook Air、MacBook Pro 入門級曝光：搭載 M2 晶片，全新設計

12 月 6 日訊息，據 MacRumors 報道，彭博社記者 Mark Gurman 最新報告稱，蘋果將在 2022 年推出五款新的 Mac 裝置，其中包括新版的入門級 MacBook Pro。在最新一期的“Power On”通訊中，Gurman 表示，他預計蘋果將

英雄聯盟手遊生態調研（六）：WRL開賽了，玩家和俱樂部怎麼看？

出品｜人民電競作者｜施豪編輯｜凱文英雄聯盟手遊職業聯賽(下文稱“WRL”)這一中國大陸賽區規模最高、影響力最大的英雄聯盟手遊賽事已經拉開帷幕。近半年的時間裡，英雄聯盟手遊從國服上線到連續辦下7場不同

Blazor和Vue對比學習（基礎1.7）：傳遞UI片斷，slot和RenderFragment

元件開發模式，帶來了複用、靈活、效能等優勢，但也增加了元件之間資料傳遞的繁雜。不像傳統的頁面開發模式，一個ViewModel搞定整個頁面資料。

PHP基礎：（常量變數，資料型別，型別轉換）

預定義變數（系統變數） $_GET：get方式提交的資料 $_POST：post方式提交的資料 $_REQUEST：$_GET，$_POST資料綜合

AcWing 126 最大的和(貪心，字首和，暴力ver.)

題目連結解題思路這題最簡單的暴力就是列舉左上角和右下角，但是其實有個稍微好一點點的方法。我們可以列舉矩形一條邊的邊長，至於另一條邊的邊長，我們會發現，在不斷往下延伸的過程中，增加了很多子矩陣，如

第十五章 ETS和DETS:大資料的儲存機制

ETS和DETS都提供"鍵-值"搜尋表, 只不過ETS駐留在記憶體而DETS駐留在磁碟, 因此ETS高效但資料儲存是臨時的, DETS資料儲存是持久的且節省記憶體但比較低效。

fork和vfork，return和exit的理解

fork和vfork的差別：1、fork是建立一個子程序，並把父程序的記憶體資料copy到子程序中。vfork是建立一個子程序，並和父程序的記憶體資料share一起。2、vfork是這樣的工作的：（1）、保證子程序先執行。（2

如何在Google Chrome瀏覽器中檢視，顯示，管理和刪除，刪除已儲存的密碼？

Google Chrome browser provides the Password Manager in order to save and reused usernames, passwords, or credentials for different web sites. Today a typical user has a lot of accounts and p

fork和exec，system和exec

fork和exec的結合使用 fork函式是分父子程序執行程式碼，而exec函式是在函式中執行其他指令呼叫fork和exec來模擬使用者輸入，當用戶輸入某一key值時，中斷當前指令去用exec指令執行其他指令

h5py檔案的建立和讀取，資料集的製作也不算很難

技術標籤：DeepLearningpython深度學習文章目錄前言一、h5py是什麼？二、建立h5檔案1.引入庫2.構建函式

Cifar10資料集的下載和匯入，windows和linux（基於tensorflow）

技術標籤：tensorflow 許多博主都提到了如何下載，在哪下載，但是到了最重要的一步：如何匯入資料集，都是草草帶過，這對於新手來說很不友好，因此寫下這篇文章。

三星 Galaxy M32 規格曝光：配備 6000mAh 電池，支援 1TB 儲存卡

6 月 10 日訊息據外媒 91mobiles 報道，三星正在開發一款名稱為 Galaxy M32 的全新 M 系列智慧手機。該機已通過 FCC、藍芽 SIG、BIS 和 Wi-Fi 聯盟的認證。

節點流和處理流（BufferedReader和BufferedWriter，BufferedInputStream和BufferedOutputStream，ObjectlnputStream和objectOutputStream）

一、基本介紹： 1、節點流可以從一個特定的資料來源讀寫資料，如FileReader、 FileWriter

Scrapy入門到放棄05：Item和Pipeline，資料和儲存

前言

Item和Pipeline

Item

Item類定義

Item資料構造

發射Item到Pipeline

Pipeline

功能

定義Pipeline

配置Pipeline

pipeline連線資料庫

1. 配置資料庫屬性

2. 定義pipeline

3. 生成Item放入pipeline

4.程式測試

結語

相關推薦