scrapy中如何設定應用cookies的方法(3種)

阿新 • • 發佈：2020-09-23

本人是python3.6

總的來說，scrapy框架中設定cookie有三種方式。

第一種：setting檔案中設定cookie

當COOKIES_ENABLED是註釋的時候scrapy預設沒有開啟cookie

當COOKIES_ENABLED沒有註釋設定為False的時候scrapy預設使用了settings裡面的cookie

當COOKIES_ENABLED設定為True的時候scrapy就會把settings的cookie關掉，使用自定義cookie

所以當我使用settings的cookie的時候，又把COOKIES_ENABLED設定為True，scrapy就會把settings的cookie關閉，

而且我也沒使用自定義cookie，導致整個請求根本沒有cookie,導致獲取頁面失敗。

總結：

如果使用自定義cookie就把COOKIES_ENABLED設定為True

如果使用settings的cookie就把COOKIES_ENABLED設定為False

第二種：middlewares中設定cookie

在middlewares中的downloadermiddleware中的process_request中配置cookie，配置如下：

request.cookies={
'':'','':'',}

等等。裡面的cookie內容要以鍵值對的形式存在。

第三種：在spider爬蟲主檔案中，重寫start_request方法，在scrapy的Request函式的引數中傳遞cookies

  # 過載start_requests方法
  def start_requests(self):
    headers = {
          "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0"}
    # 指定cookies
    cookies = {
          'uuid': '66a0f5e7546b4e068497.1542881406.1.0.0','_lxsdk_cuid': '1673ae5bfd3c8-0ab24c91d32ccc8-143d7240-144000-1673ae5bfd4c8','__mta': '222746148.1542881402495.1542881402495.1542881402495.1','ci': '20','rvct': '20%2C92%2C282%2C281%2C1','_lx_utm': 'utm_source%3DBaidu%26utm_medium%3Dorganic','_lxsdk_s': '1674f401e2a-d02-c7d-438%7C%7C35'}

        # 再次請求到詳情頁，並且宣告回撥函式callback，dont_filter=True 不進行域名過濾，meta給回撥函式傳遞資料
    yield Request(detailUrl,headers=headers,cookies=cookies,callback=self.detail_parse,meta={'myItem': item},dont_filter=True)

同時還要在setting中設定：

ROBOTSTXT_OBEY=False

到此這篇關於scrapy中如何設定應用cookies的方法(3種)的文章就介紹到這了,更多相關scrapy設定cookies內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

scrapy中如何設定應用cookies的方法(3種)

本人是python3.6 總的來說，scrapy框架中設定cookie有三種方式。第一種：setting檔案中設定cookie

scrapy中如何設定應用cookies

總的來說，scrapy框架中設定cookie有三種方式。第一種： setting檔案中設定cookie 當COOKIES_ENABLED是註釋的時候scrapy預設沒有開啟cookie

轉：JS判斷某變數是否為某陣列中的一個值的3種方法

1.正則表示式 js 中判斷某個元素是否存在於某個 js 陣列中，相當於 PHP 語言中的 in_array 函式。

python中控制小數位數的3種方法

技術標籤：Pythonpython格式有三種方法見如下程式碼： # -*- coding: UTF-8 -*- """

Windbg在Managed App中設定函式斷點的幾種方法

本文介紹兩種使用Windbg在Managed App中設定斷點的方法。一種是在live Debug的時候，attach到了Process之後。另外一種是動態除錯的時候，如何給幾個模組的特定方法下一個斷點。

Python3建立Django專案的幾種方法(3種)

Django是一種基於Python的Web開發框架一、在命令列中建立Django專案（Windows平臺、python3.6）

淺談Flutter 中漸變的高階用法(3種)

Flutter 中漸變有三種： LinearGradient：線性漸變 RadialGradient：放射狀漸變 SweepGradient：扇形漸變

Java執行緒池中設定執行緒名稱三種方式

本文講一下Java執行緒池中建立 ThreadFactory 設定執行緒名稱的三種方式。具體內容如下圖所示

MySQL資料庫重新命名的快速且安全方法(3種)

MySQL資料庫重新命名的方法 Innodb引擎的表如何改資料庫名，MyISAM引擎又該如何操作。

多測師肖老師_設計用例方法之經驗測試方法3種___(4.8)

經驗測試方法：（1）基於經驗的測試技術之錯誤推測法錯誤推測法也叫錯誤猜測法，就是根據經驗猜想，已有的缺陷，測試經驗和失敗資料等可能有什麼問題並依此設計測試用例

Java中停止執行緒的3種方式

在 Java 中停止執行緒的實現方法有以下 3 種：自定義中斷識別符號，停止執行緒。

Android應用禁止螢幕休眠的3種方法

做Android應用開發時，有時需要在應用前臺執行時，禁止休眠，以下幾種方法供參考。

Mybatis中3種關聯關係的實現方法示例

三種關聯關係：一對多，一對一，多對多兩種查詢方式：巢狀查詢，連線查詢（也可稱作：多表單獨查詢，多表連線查詢）

python隱藏類中屬性的3種實現方法

方法一：效果圖一：程式碼一： # 定義一個矩形的類 class Rectangle: # 定義初始化方法

python實現刪除列表中某個元素的3種方法

python中關於刪除list中的某個元素，一般有三種方法:remove、pop、del： 1.remove: 刪除單個元素，刪除首個符合條件的元素，按值刪除

Python3查詢列表中重複元素的個數的3種方法詳解

方法一： mylist = [1,2,3,4,4] myset = set(mylist) for item in myset: print(\"the %d has found %d\" %(item,mylist.count(item)))

React中獲取資料的3種方法及優缺點

為了保證的可讀性，本文采用意譯而非直譯。在執行 I/O 操作（例如資料提取）時，要先發送網路請求，然後等待響應，接著將響應資料儲存到元件的狀態，最後進行渲染。

Python中處理命令列引數的3種方法

作者|Dardan Xhymshiti 編譯|VK 來源|Towards Data Science 1.sys模組 Python中的sys模組具有argv功能。當通過終端觸發main.py的執行時，此功能返回所有命令列引數的列表。返回列表中的第一個元素是main.py.

如何在WordPress中製作聯絡表單（3種方法）

本篇教程提供3個在WordPress中建立聯絡表單並記錄詢盤的方法：外掛Contact Form 7 + Flamingo，兩者都免費

詳解向scrapy中的spider傳遞引數的幾種方法(2種)

有時需要根據專案的實際需求向spider傳遞引數以控制spider的行為，比如說，根據使用者提交的url來控制spider爬取的網站。在這種情況下，可以使用兩種方法向spider傳遞引數。