scrapy頭部修改的方法詳解

阿新 • • 發佈：2020-12-07

被Scrapy自動新增的頭部

在沒有任何配置的情況下，scrapy會對請求預設加上一些頭部資訊

Scrapy會通過配置檔案中的USER_AGENT配置，自動為頭部新增User-Agent，這條配置會被任何包含User-Agent的配置覆蓋

scrapy頭部修改的方法詳解

當請求經過下載器後，會被自動新增頭部Accept-Encoding: gzip,deflate,會被任意包含Accept-Encoding的頭部配置覆蓋

配置settings.py檔案中預設的頭部

#DEFAULT_REQUEST_HEADERS = {
# 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',# 'Accept-Language': 'en'
#}

當這個配置屬於註釋狀態時，頭部被設定為Accept:text/html,*/*;q=0.8與
Accept-Language: en，可以通過取消註釋修改或增刪其中的內容

優先順序

會被Request和中介軟體中的頭部配置覆蓋
可以覆蓋scrapy自動新增的User-Agent和Accept-Encoding

可以在爬蟲中通過custom_settings設定配置僅在當前爬蟲生效

class XXXSpider(scrapy.Spider):
 ...
 custom_settings = {
  DEFAULT_REQUEST_HEADERS = {...}
	}
 ....

在Request中設定頭部

當給引擎返回Request時，可以為他配置頭部

...
def parse(self):
  headers = {
    ...
  }
  
  yield scrapy.Request(url,headers=headers)

優先順序

Request中設定的header會和settings.py檔案中的預設頭部合併到一起，如果有重複的配置，那麼會覆蓋那條配置
會被中介軟體中的配置覆蓋

在中介軟體中配置

當Request請求通過下載中介軟體發往下載器時，可以通過下載中介軟體配置頭部

class XXXDownloaderMiddleware
  def process_request(self,request,spider):
	  request.headers["key"] = value
    return None

還需要在配置檔案中啟用下載中間價

DOWNLOADER_MIDDLEWARES = {
  'project.middlewares.XXXDownloaderMiddleware': 543,}

優先順序

會覆蓋除了Referer以外的所有頭部配置

referer中介軟體

當存在多次請求時，referer中介軟體會自動幫Request的頭部中的referer加上上一次請求的url

優先順序

最高，會在所有頭部配置完之後，新增referer
除了只請求一次沒有referer的情況，就算在其他頭部配置中設定了referer也會被referer中介軟體覆蓋

關閉referer中介軟體

在配置檔案中新增REFERER_ENABLED=False即可關閉

優先順序分析

Scrapy自動新增的User-Agent與Accept-Encoding < 配置檔案中的預設配置DEFAULT_REQUEST_HEADERS < Request中修改的header < 中介軟體中新增的header < referer中介軟體新增的referer

此篇文章僅表示自己對scrapy的理解，如有錯誤歡迎指正

到此這篇關於scrapy頭部修改的文章就介紹到這了,更多相關scrapy頭部修改內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

Java實現連結串列中元素的獲取、查詢和修改方法詳解

本文例項講述了Java實現連結串列中元素的獲取、查詢和修改方法。分享給大家供大家參考，具體如下：

scrapy頭部修改的方法詳解

被Scrapy自動新增的頭部在沒有任何配置的情況下，scrapy會對請求預設加上一些頭部資訊

python修改檔案內容的3種方法詳解

這篇文章主要介紹了python修改檔案內容的3種方法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

JavaScript React如何修改預設埠號方法詳解

問題我們在使用React的時候經常會遇到這種情況，3000埠號被佔用。有時候可以關掉3000埠，但更多時候，我們需要開啟多個專案的時候，就必須要開啟多個埠了。這時候就需要修改預設埠號了。

ASP.NET Core中修改配置檔案後自動載入新配置的方法詳解

前言在 ASP.NET Core 預設的應用程式模板中，配置檔案的處理如下面的程式碼所示：

Navicat Premium 15無限試用登錄檔修改的方法詳解

最近看上了Navicat Premium 15對PostgreSQL的支援，老版本的會有找不到oid欄位報錯，網上棲息的一些和諧版本是通過暴力修改二進位制檔案中的金鑰來完成的，把可執行檔案的數字簽名也給破壞了，若遇到別有用心的捆綁個

網站新增頭部Meta property=og協議的使用方法詳解教程

Meta Property=og怎麼使用？如何呼叫og:type？怎麼在文章中呼叫og:title？如何使用調取文章og:image？本文將介紹什麼是Meta Property=og協議以及該協議的用法！

Spring事務管理原理及方法詳解

這篇文章主要介紹了Spring事務管理原理及方法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Spring5中的WebClient使用方法詳解

前言 Spring5帶來了新的響應式web開發框架WebFlux，同時，也引入了新的HttpClient框架WebClient。WebClient是Spring5中引入的執行 HTTP 請求的非阻塞、反應式客戶端。它對同步和非同步以及流方案都有很好的支援，We

Java使用I/O流讀取檔案內容的方法詳解

本文例項講述了Java使用I/O流讀取檔案內容的方法。分享給大家供大家參考，具體如下：

Android基礎控制元件RadioGroup使用方法詳解

本文為大家分享了Android基礎控制元件RadioGroup的使用，供大家參考，具體內容如下

spring boot 防止重複提交實現方法詳解

本文例項講述了spring boot 防止重複提交實現方法。分享給大家供大家參考，具體如下：

SpringBoot注入配置檔案的3種方法詳解

這篇文章主要介紹了SpringBoot注入配置檔案的3種方法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

mysql/Java服務端對emoji的支援與問題解決方法詳解

本文例項講述了mysql Java服務端對emoji的支援與問題解決方法。分享給大家供大家參考，具體如下：

Java連線Mysql 8.0.18版本的方法詳解

關於Java和Mysql 8.0.18版本的連線方式，供大家參考，具體內容如下 1.官網下載mysql-server.（Connector/J記得安裝）

maven解決包衝突方法詳解

Maven根據最近勝利策略（nearest wins strategy）的原則工作，同時解決依賴衝突，這意味著它在依賴樹中找到更接近的版本，它將採用該版本並忽略其他版本。實際上Maven有點懶，所以每當它開始尋找依賴時，它就會從根目

Java執行緒間共享實現方法詳解

一、synchronize物件鎖和類鎖 synchronize為多執行緒關鍵字是一種同步鎖，它可以修飾以下幾種物件：

Spring Boot專案中定製攔截器的方法詳解

這篇文章主要介紹了Spring Boot專案中定製攔截器的方法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

mysql儲存過程原理與使用方法詳解

本文例項講述了mysql儲存過程原理與使用方法。分享給大家供大家參考，具體如下：

mysql檢視之建立可更新檢視的方法詳解

本文例項講述了mysql檢視之建立可更新檢視的方法。分享給大家供大家參考，具體如下：

scrapy頭部修改的方法詳解

相關推薦