python爬蟲-scrapy下載中介軟體

阿新 • • 發佈：2022-03-25

下載中介軟體

在每一個scrapy工程中都有一個名為 middlewares.py 的檔案，這個就是中介軟體檔案
其中下載中介軟體的類為 XxxDownloaderMiddleware
其中有這麼幾個方法

    def process_request(self, request, spider):
        return None

    def process_response(self, request, response, spider):
        return response

    def process_exception(self, request, exception, spider):
        pass

process_request

這個方法是用來攔截請求的，我們可以將UA偽裝寫在這個方法中。
UA池這個屬性需要自己編寫

    def process_request(self, request, spider):
        # UA偽裝,從UA池隨機一個
        request.headers['User-Agent'] = random.choice(self.user_agent_list)
        return None

process_response

這個方法是用來攔截響應的，我們可以在這裡篡改響應資料。
如果我們將selenium和scrapy結合就可以請求那些動態載入的資料了。

    def process_response(self, request, response, spider):
        # 瀏覽器物件
        bro = spider.bro
        # 引數spider是爬蟲物件
        # 挑選出指定響應物件進行篡改url->request->response
        bro.get(request.url)
        page_text = bro.page_source  # 包含了動態載入的資料
        # 針對定位到的response篡改
        # 例項化新的響應物件（包含動態載入的資料）
        response = HtmlResponse(url=bro.current_url, body=page_text, encoding='utf-8', request=request)
        return response

在爬蟲檔案中需要預先建立selenium的瀏覽器物件

import scrapy
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import ChromeOptions

class XxxSpider(scrapy.Spider):
    name = 'xxx'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['……']

    def __init__(self):
        service = Service('/Users/soutsukyou/PyCharm_Workspace/網路爬蟲/study_selenium/chromedriver')
        chrome_options = ChromeOptions()
        # 規避檢測
        chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
        # 例項化瀏覽器
        self.bro = webdriver.Chrome(service=service, options=chrome_options)

process_exception

這是用來攔截髮生異常的請求物件，一般我們可以在這裡寫代理ip。
兩個代理ip池屬性需要自己編寫

    def process_exception(self, request, exception, spider):
        # 可以設定代理ip
        if request.url.split(':')[0] == 'http':
            request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http)
        if request.url.split(':')[0] == 'https':
            request.meta['proxy'] = 'https://'+random.choice(self.PROXY_https)
        # 重新請求傳送
        return request

其它

我們需要在settings.py中開啟下載中介軟體才能使其生效

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
   'xxx.middlewares.XxxDownloaderMiddleware': 543,
}

python爬蟲-scrapy下載中介軟體

下載中介軟體在每一個scrapy工程中都有一個名為 middlewares.py 的檔案，這個就是中介軟體檔案

爬蟲終 scrapy框架2 全站爬取cnblogs, scarpy請求傳參, 提高爬取效率, 爬蟲中介軟體下載中介軟體, 整合selenium, fake-useragent, 去重原始碼分析, 布隆過濾器, 分散式爬蟲, java等語言概念補充, bilibili爬視訊參考

1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com

scrapy的中介軟體（下載中介軟體）

# 下載中介軟體 -process_request：返回不同的物件，後續處理不同（加代理...） class CnblogsDownloaderMiddleware:

scrapy 使用selenium作為下載中介軟體

技術標籤：爬蟲selenium中介軟體最近在做scrapy專案的時候，需要非同步渲染動態的網頁，自己構建了一個selenium 非同步渲染的下載中介軟體

Scrapy框架中如何更改下載中介軟體裡的headers？

大家好，我是我是皮皮。一、前言前幾天在Python最強王者交流群有個叫【麥當】的粉絲問了一個關於Scrapy框架中如何更改下載中介軟體裡的headers問題，這裡拿出來給大家分享下，一起學習。

Python爬蟲 scrapy框架爬取某招聘網存入mongodb解析

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構

09 scrapy的中介軟體

scrapy的中介軟體簡介 1 都寫在middlewares.py 2 爬蟲中介軟體 3 下載中介軟體 4 要生效，一定要配置，配置檔案

Scrapy使用中介軟體捕獲Spider丟擲的異常

docs Spider中介軟體啟用，setting.py檔案 SPIDER_MIDDLEWARES = { \'crawler.middlewares.CrawlerSpiderMiddleware\': 543,

Python爬蟲Scrapy框架CrawlSpider原理及使用案例

提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？

python爬蟲scrapy圖書分類例項講解

我們去圖書館的時候，會直接去自己喜歡的分類欄目找尋書籍。如果其中的分類不是很細緻的話，想找某一本書還是有一些困難的。同樣的如果我們獲取了一些圖書的資料，原始的檔案裡各種資料混雜在一起，非常不利於我們的

用python爬蟲批量下載pdf的實現

今天遇到一個任務，給一個excel檔案，裡面有500多個pdf檔案的下載連結，需要把這些檔案全部下載下來。我知道用python爬蟲可以批量下載，不過之前沒有接觸過。今天下午找了下資料，終於成功搞定，免去了手動下載的煩惱

[Python爬蟲]scrapy-redis快速上手（爬蟲分散式改造）

作者的話對Python爬蟲如何實現大批量爬取感興趣的讀者可以看下scrapy爬蟲框架，並且使用本文的scrapy-redis將你的爬蟲升級為分散式爬蟲。

Python 爬蟲 - Scrapy框架原理

Python 爬蟲包含兩個重要的部分：正則表示式和Scrapy框架的運用，正則表示式對於所有語言都是通用的，網路上可以找到各種資源。

Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用

下載程式碼Cookie池（這裡主要是微博登入，也可以自己配置置其他的站點網址）

Python爬蟲批量下載文獻

最近在看NeurIPS的文章，想下載多一點有空就看，但是一篇篇下載太繁瑣。就想到了之前一直聽說的python爬蟲，於是就學著弄一下。先放最終執行的程式：

python爬蟲-scrapy資料解析

一般的資料解析首先建立工程 cd study_scrapy/# 進入要建立工程的目錄 scrapy startproject study_scrapy02# 建立工程

python爬蟲-scrapy持久化儲存

scrapy的持久化儲存有兩種：基於終端指令的和基於管道的基於終端指令限制：

Scrapy入門到放棄04：下載器中介軟體，讓爬蟲更完美

下載器中介軟體,讓爬蟲更完美前言 MiddleWare，顧名思義，中介軟體。主要處理請求（例如新增代理IP、新增請求頭等）和處理響應

Python爬蟲之scrapy高階(傳參,圖片,中介軟體)

目錄1 scrapy請求傳參1.1 傳參說明1.2 具體操作2 scrapy圖片爬取2.1 ImagesPipeline理解2.2 ImagesPipeline使用2.2.1 圖片爬蟲檔案2.2.2 基於ImagesPipeLine的管道類2.2.3 settings.py3 中介軟體3.1 中介軟體簡單介

Python Django中介軟體，中介軟體函式，全域性異常處理操作示例

本文例項講述了Python Django中介軟體，中介軟體函式，全域性異常處理操作。分享給大家供大家參考，具體如下：

python爬蟲-scrapy下載中介軟體

下載中介軟體

process_request

process_response

process_exception

其它

相關推薦