Scrapy中的Downloader Middleware基礎介紹

阿新 • • 發佈：2018-11-30

建立專案

scrapy startproject +專案名稱

cd + 專案名稱

scrapy genspider +爬蟲名+要爬取的域名

建立結果如下：

開啟spider檔案做詳細介紹：

# -*- coding: utf-8 -*-
import scrapy


class HttpbinSpider(scrapy.Spider):
    # 爬蟲名稱
    name = 'httpbin'
    # 允許爬取的域名
    allowed_domains = ['httpbin.org']
    # 起始url列表，預設從此列表抓取
    start_urls = ['http://httpbin.org/']

    def parse(self, response):
        pass

下載中介軟體Downloader Middleware

下載中介軟體是處於Scrapy的Request和Response之間的處理模組，在整個架構中起作用的位置是兩個：

1. 在Scheduler排程處佇列的Request傳送給Downloder下載之前。

可以在Request執行下載之前對其進行修改。

2.在下載後生成的Response傳送給Spider之前。

可以再生成的Response被Spider解析之前對其進行修改。

可以用來修改User-Agent、處理重定向、設定代理、失敗重試、設定cookies都需要藉助它來實現。

下面介紹一下Downloader Middleware的三個方法：

process_request(self, request, spider):

請求被排程給Downloader之前，此方法就會呼叫，對Request進行處理。

兩個引數分別為，Request物件，對應的Spider。

process_response(self, request, response, spider):

Downloader執行Request下載之後，會得到對應的Response，引擎會將Response傳送給Spider進行解析，在傳送之前，都可以用此方法對Response進行處理。

引數有三個：

request：Response對應的Request

response：被處理的Response

spider：對應的Spider

process_exception(self, request, exception, spider):

丟擲異常時被呼叫。

引數有三個：

request：產生異常的Request.

exception：丟擲的異常.

spider：產生的異常對應的Spider.

設定User-Agent

1、在setting.py裡面加一行定義即可：

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

2、設定隨機的需要藉助Downloader Middleware

class RandomUserAgentMiddleware():
    def __init__(self):
        self.user_agent = [
            'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)',
            'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)',
            'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/5.0)',
        ]
        
    def process_request(self,request,spider):
        request.headers["User-Agent"] = random.choice(self.user_agent)

要使之生效，需要在settings.py 檔案中呼叫這個Downloader Middleware

DOWNLOADER_MIDDLEWARES = {
    'scrapydownloadertest.middlewares.RandomUserAgentMiddleware': 543,
}

重新執行之後可以看到已經改變：

這樣，利用process_request()方法成功設定了隨機的User-Agent。

process_response()

Downloader Middleware在執行下載之後會得到Response，隨後將Response傳送給Spider處理。

可以修對Response進行處理。

在RandomUserAgentMiddleware新增如下程式碼：

class RandomUserAgentMiddleware():
    def __init__(self):
        self.user_agent = [
            'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)',
            'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)',
            'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/5.0)',
        ]

    def process_request(self,request,spider):
        request.headers["User-Agent"] = random.choice(self.user_agent)
        
    def process_response(self,request,response,spider):
        #修改狀態碼
        response.status = 201
        return response

process_response返回response給spider：

self.logger.debug('Status Code' + str(response.status))

在spider中輸出response.status即可看到結果，重新執行之後，觀察到的結果如下：

Scrapy中的Downloader Middleware基礎介紹

建立專案 scrapy startproject +專案名稱 cd + 專案名稱 scrapy genspider +爬蟲名+要爬取的域名建立結果如下：開啟spider檔案做詳細介紹： # -*- coding: utf-8 -*- import scrapy

小白學 Python 爬蟲（36）：爬蟲框架 Scrapy 入門基礎（四） Downloader Middleware

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

Python爬蟲從入門到放棄之 Scrapy框架中Download Middleware用法

sta 頻繁 space raw 處理們的 img ear 法則這篇文章中寫了常用的下載中間件的用法和例子。Downloader Middleware處理的過程主要在調度器發送requests請求的時候以及網頁將response結果返回給spiders的時候，所以從

Python爬蟲從入門到成妖之7-----Scrapy框架中Download Middleware用法

例子 start col res urn 鉤子 exception 安裝打印這篇文章中寫了常用的下載中間件的用法和例子。Downloader Middleware處理的過程主要在調度器發送 requests請求的時候以及網頁將 response結果返回給 spiders

scrapy框架中在middleware中進行配置user-agent，將user-agent進行隨機

在scrapy中進行user-agent配置，將其進行隨機更換。下面所寫為學習筆記使用scrapy進行爬蟲的時候，一些針對爬蟲設定了一些反爬措施，最明顯的是user-agent。一、在setting檔案中ctrl+f找到 DOWNLOADER_MIDDLEWARES，將其註釋的部分

Scrapy中Middleware和Item Pipeline的用法

Middleware 資料流向：當Downloader生成Response之後，Response會被髮送給Spider，在傳送之前，會經過Middleware處理，當Spider處理生成Item和Request之後，Item和Requ

kaldi基礎介紹（一）在說話人識別中的資料準備

在kaldi說話人識別示例（egs/sre10,egs/sre16）中，資料總共有兩大類，一是訓練集（training），二是評估資料集（evaluation）。對於評估資料集又分為兩類，一是用來註冊（enrollment）的資料集，二是測試（test）集。一、訓練集的準備訓

scrapy的中介軟體Downloader Middleware實現User-Agent隨機切換

scrapy的中介軟體Download Middleware實現User-Agent隨機切換總架構理解Middleware 通過scrapy官網最新的架構圖來理解：從圖中我們可以看出，在spiders和ENGINE提及ENG

Android基礎篇(三)——Android中的Activity簡單介紹

一、Activity的基本介紹 Android應用中通常由一個或者多個基本元件組成，我們平時看到的Andrid應用中最常用的元件就是Activity。Activity、BroadcastReceiver、ContentProvider和Service合稱Android的四大

iOS開發之網路程式設計--1、AFNetwork 3.x 的所有開發中常用基礎介紹

前言：第三方網路請求框架中AFNetwork 3.x收歡迎程度相當高的：由於iOS 7 和 Mac OS X 10.9 Mavericks 中一個顯著的變化就是對 Foundation URL 載入系統的徹底重構。而且現在AFN 3.x版本完全摒棄了NSURLConnection，而使用了NSURL

Python爬蟲從入門到放棄（二十三）之 Scrapy的中間件Downloader Middleware實現User-Agent隨機切換

cls sta @class The agen github tle 好的 RoCE 原文地址https://www.cnblogs.com/zhaof/p/7345856.html 總架構理解Middleware 通過scrapy官網最新的架構圖來理解：這個圖

Scrapy基礎第三節：Scrapy框架結構和元件介紹

前置知識：掌握Python的基礎知識對爬蟲基礎有一定了解說明：執行環境 Win10，Python3 64位目錄: 1 Scrapy框架組成結構 2 Scapry資料流程 Scrap

Python爬蟲從入門到放棄（十七）之 Scrapy框架中Download Middleware用法

本文出自“python修行路”部落格，http://www.cnblogs.com/zhaof/p/7198407.html這篇文章中寫了常用的下載中介軟體的用法和例子。Downloader Middleware處理的過程主要在排程器傳送requests請求的時候以及網頁將response結果返回給spide

JavaScript 中的函數介紹

所有 calculate 曾經什麽乘法函數表達式 second 數字 brush 簡而言之函數只不過是一組執行某個操作的語句。函數可能會有一些輸入參數（在函數體中使用），並在執行後返回值。　　JavaScript函數也具有這些特性，但它們不僅僅是常規函數。Java

scrapy中Request中常用參數

wow64 doc ant headers loop 錯誤 win cep accept 　　 url: 就是需要請求，並進行下一步處理的url callback: 指定該請求返回的Response，由那個函數來處理。 method: 一般不需要指定，使用默認GET方法請

html的meta總結，html標簽中meta屬性使用介紹

ida keyword 時間格式 robot 時間日文 for lba com 來源：http://www.haorooms.com/post/html_meta_ds 引子之前的我的博客中對於meta有個介紹，例如：http://www.haorooms.com/

Flask基礎介紹

ict 常用工具路由服務器 nginx done .org extend redirect 1. 介紹 Flask是一種使用Python 編寫的輕量級Web應用框架, 實現了基礎的核心, 用extension增加其他功能它的WSGI工具箱采用Werkzeug, 模板引

JS實現循環刪除數組中元素的方法介紹

blog 但是 rom 移除 ons 朋友 function cnblogs 調整這篇文章主要給大家介紹了關於Javascript循環刪除數組中元素的幾種方法，文中給出了詳細的示例代碼供大家參考學習，對大家具有一定的參考學習價值，需要的朋友們下面來一起看看吧。本文主

[轉]scrapy中的request.meta

網址 example main cookies Language 屬性 ... rac 文件作者：知乎用戶鏈接：https://www.zhihu.com/question/54773510/answer/146971644 meta屬性是字典，字典格式即{‘key’:

深度學習數學基礎介紹（二）概率與數理統計

特征數字特征抽樣分布第5章最大中心 3.4 獨立知識第1章隨機事件與概率§1.1 隨機事件§1.2 隨機事件的概率§1.3 古典概型與幾何概型§1.4 條件概率§1.5 事件的獨立性第2章隨機變量的分布與數字特征§2.1 隨機變量及其分布§2.2 隨機變

Scrapy中的Downloader Middleware基礎介紹

建立專案

下載中介軟體Downloader Middleware

設定User-Agent

process_response()

相關推薦