【Scrapy 框架翻譯】物品管道（Item Pipeline）篇

阿新 • • 發佈：2021-02-02

技術標籤：# Scrapy 資料採集 python scrapy Pipeline 原始碼管道

版本號：Scrapy 2.4

文章目錄

內容介紹
pipeline基礎方法
pipeline簡單舉例
pipeline啟用方法

內容介紹

Pipeline用於處理通過Scrapy抓取來的資料。
主要用途：

清理HTML資料
驗證抓取去的資料(檢查專案是否包含某些欄位)
檢查副本(並刪除)
將Scrapy的項儲存在資料庫中

pipeline基礎方法

每個專案管道元件都是一個Python類

process_item

(self, item, spider)：pipeline處理定義的Items內容。

open_spider(self, spider)：開啟Spider時呼叫此方法。

close_spider(self, spider)：關閉Spider時呼叫此方法。

from_crawler(cls, crawler)：當建立一個pipline例項的時候該方法會被呼叫，該方法必須返回一個pipline例項物件，一般用於獲取scrapy專案的配置setting中配置的值。

pipeline簡單舉例

抓取資料用於調整price屬性示例

from itemadapter import ItemAdapter
from 
 scrapy.exceptions import DropItem
class PricePipeline:

    vat_factor = 1.15

    def process_item(self, item, spider):
        adapter = ItemAdapter(item)
        if adapter.get('price'):
            if adapter.get('price_excludes_vat'):
                adapter['price'] = adapter['price'] * self. 
vat_factor
            return item
        else:
            raise DropItem(f"Missing price in {item}")

資料寫入JSON檔案

import json

from itemadapter import ItemAdapter

class JsonWriterPipeline:

    def open_spider(self, spider):
        self.file = open('items.jl', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(ItemAdapter(item).asdict()) + "\n"
        self.file.write(line)
        return item

資料寫入寫入MongoDB

import pymongo
from itemadapter import ItemAdapter

class MongoPipeline:

    collection_name = 'scrapy_items'

    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(ItemAdapter(item).asdict())
        return item

頁面截圖

import hashlib
from urllib.parse import quote

import scrapy
from itemadapter import ItemAdapter

class ScreenshotPipeline:
    """
    每個Scrapy專案使用Splash渲染螢幕截圖的管道
	"""

    SPLASH_URL = "http://localhost:8050/render.png?url={}"

    async def process_item(self, item, spider):
        adapter = ItemAdapter(item)
        encoded_item_url = quote(adapter["url"])
        screenshot_url = self.SPLASH_URL.format(encoded_item_url)
        request = scrapy.Request(screenshot_url)
        response = await spider.crawler.engine.download(request, spider)

        if response.status != 200:
            # Error happened, return item.
            return item

        # Save screenshot to file, filename will be hash of url.
        url = adapter["url"]
        url_hash = hashlib.md5(url.encode("utf8")).hexdigest()
        filename = f"{url_hash}.png"
        with open(filename, "wb") as f:
            f.write(response.body)

        # Store filename in item.
        adapter["screenshot_filename"] = filename
        return item

資料重複過濾

from itemadapter import ItemAdapter
from scrapy.exceptions import DropItem

class DuplicatesPipeline:

    def __init__(self):
        self.ids_seen = set()

    def process_item(self, item, spider):
        adapter = ItemAdapter(item)
        if adapter['id'] in self.ids_seen:
            raise DropItem(f"Duplicate item found: {item!r}")
        else:
            self.ids_seen.add(adapter['id'])
            return item

pipeline啟用方法

在settings.py中設定，否則抓取資料無法處理

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}

【Scrapy 框架翻譯】物品管道（Item Pipeline）篇

技術標籤：# Scrapy 資料採集pythonscrapyPipeline原始碼管道版本號：Scrapy 2.4 文章目錄

【Scrapy 框架翻譯】物品載入（Item Loaders）詳解篇

技術標籤：# Scrapy 資料採集pythonscrapy爬蟲原始碼Item Loaders 版本號：Scrapy 2.4 文章目錄

【演算法框架套路】回溯演算法（暴力窮舉的藝術）

目錄回溯演算法介紹框架套路演算法示例全組合全排列湊零錢N皇后回溯演算法介紹

DAX 第九篇：【翻譯】自動存在（auto-exist）

自動存在是 DAX 中內建的一項技術，其唯一的目標是避免無用計算，換句話說，它是 DAX 的過濾機制使用的一種優化技術，目的是減少計算值的工作量。

【洛谷6631】[ZJOI2020] 序列（思維題）

點此看題面大致題意：給定一個序列，每次操作你可以選擇一段區間，然後將其中所有數/所有下標為奇數的數/所有下標為偶數的數都減\$1\$，求最少操作多少次能夠讓全部數都變成\$0\$。

【洛谷5128】好時光（數位DP）

點此看題面大致題意：求\$\\sum_{i=1}^N f(i,k)\$，其中\$f(i,k)\$定義為將十進位制數\$i\$轉化為\$k\$進位制並按位寫成一個數列的形式，其中最長的等差序列子串的長度。

【洛谷7114】字串匹配（Z函式）

點此看題面給定一個長度為\$n\$的字串\$s\$。問有多少組種非空字串\$A,B,C\$，滿足\$s=(AB)^kC\$，且\$A\$中出現次數為奇數的字元個數小於等於\$C\$中的個數。

【洛谷5467】[PKUSC2018] PKUSC（計算幾何）

點此看題面給定\$n\$個點和一個\$m\$個點構成的多邊形。隨機將多邊形旋轉一個角度，求落在多邊形內部的點數的期望。

【APICloud系列|29】dialogBox模組（對話方塊）的實現

技術標籤：APICloud系列dialogBoxAPICloud對話方塊導讀：dialogBox 封裝了十一種款式的對話方塊，每一種款式都提供一個介面來呼叫，開發者可按照各個介面的樣式來自定義對話方塊上的文字、圖片、圖文等

【APICloud系列|24】 MNNavigationMenu模組（導航選單）的實現

技術標籤：APICloud系列NavigationAPICloud導航選單導讀：MNNavigationMenu 是一個導航欄選單，開發者可自定義其中的樣式和按鈕個數，超出螢幕部分可左右拖動檢視。

【前端 · 面試】HTTP 總結（十一）—— HTTPS 概述

HTTPS 是一種通過計算機網路進行安全通訊的傳輸協議。HTTPS 經由 HTTP 進行通訊，但利用 SSL/TLS 來加密資料包。

【洛谷3229】[HNOI2013] 旅行（單調佇列）

給定一個 $1\\sim n$ 的排列 $a_{1\\sim n}$ 和一個長度為 $n$ 的 $01$ 序列 $b_{1\\sim n}$。要求將序列劃分為恰好 $m$ 段，使得每一段 $b_i$ 中 $0$ 和 $1$ 個數差的絕對值的最大值最小。在此前提下，記每一段末

【洛谷7125】[Ynoi2008] rsmemq（根號分治）

題目連結給定一個長度為 \$n\$ 的整數序列 \$a\$。定義一個區間 \$[l,r]\$ 是優秀的，當且僅當 \$\\frac{l+r}2\$ 是 \$[l,r]\$ 的眾數。

【Go 語言社群】HTML5 Geolocation（地理定位）-轉

HTML5 Geolocation（地理定位）用於定位使用者的位置。定位使用者的位置 HTML5 Geolocation API 用於獲得使用者的地理位置。

【翻譯】MPE標準（MIDI Polyphonic Expression）

MIDI基本內容 MIDI裝置通過MIDI線進行物理連結，並被劃分為16個虛擬資料通道，資料線中傳輸的資料為MIDI Message。一般情況下，每一個通道代表一種樂器（音色）。MIDI協議對每一種樂器的音色都進行了編號。

【SpringBoot框架學習】Web容器的切換詳解

SpringBoot 支援的Web容器：在springBoot框架中，支援了3個Web容器： Spring Boot支援的Web容器：

【《你不知道的JS（中卷②）》】一、非同步：現在與未來

一、非同步：現在與未來：如何表達和控制持續一段時間的程式行為，是使用類似JS這樣的語言程式設計時，很重要但常常被誤解的一點。

【解題報告】分組揹包（YBT 1272）

**終於從資料結構的魔圈中走出來啦！！！，今天我終於要寫一篇關於動態規劃的題目啦，哈哈哈！ **

【洛谷5445】[APIO2019] 路燈（樹套樹）

點此看題面大致題意：有\$n\$個點，規定\$x,y\$連通當且僅當\$a_x=a_{x+1}=...=a_y=1\$。給定零時刻\$a_i\$的值，每個時刻可能會發生兩種事件：將\$a_x\$取反（\$0->1,1->0\$），或詢問\\(x,y\\

Luogu P3388 【模板】割點（割頂）

思路很好，這又是一道模板。求割點的tarjan和求強連通分量的tarjan原理相同，但是實際寫法並不完全相同。要注意的是，對於一個點u，它在不同情況下要滿足以下兩個條件才能稱之為割點：

【Scrapy 框架翻譯】物品管道（Item Pipeline） 篇

文章目錄

內容介紹

pipeline基礎方法

pipeline簡單舉例

抓取資料用於調整price屬性示例

資料寫入JSON檔案

資料寫入寫入MongoDB

頁面截圖

資料重複過濾

pipeline啟用方法

相關推薦

【Scrapy 框架翻譯】物品管道（Item Pipeline）篇