Scrapy中使用cookie免於驗證登入和模擬登入

阿新 • • 發佈：2018-12-05

Scrapy中使用cookie免於驗證登入和模擬登入

引言

python爬蟲我認為最困難的問題一個是ip代理，另外一個就是模擬登入了，更操蛋的就是模擬登入了之後還有驗證碼，真的是不讓人省心，不過既然有了反爬蟲，那麼就有反反爬蟲的策略，這裡就先介紹一個cookie模擬登陸，後續還有seleminum+phantomjs模擬瀏覽器登入的文章。還不知道cookie是什麼朋友們，可以點選這裡

cookie提取方法：

開啟谷歌瀏覽器或者火狐瀏覽器，如果是谷歌瀏覽器的按F12這個鍵就會跳出來瀏覽器控制檯，然後點選Network，之後就是重新整理網頁開始抓包了，之後在抓到的頁面中隨便開啟一個，就能看到cokie了，但是這裡的cookie並不符合python中的格式，因此需要轉換格式，下面提供了轉換的程式碼

<span style="color:#000000"><code> <span style="color:#880000"># -*- coding: utf-8 -*-</span>

    <span style="color:#000088">class</span> <span style="color:#4f4f4f">transCookie</span>:
    <span style="color:#000088">def</span> <span style="color:#009900">__init__</span><span style="color:#4f4f4f">(self, cookie)</span>:
        self.cookie = cookie

    <span style="color:#000088">def</span> <span style="color:#009900">stringToDict</span><span style="color:#4f4f4f">(self)</span>:
        <span style="color:#009900">'''
        將從瀏覽器上Copy來的cookie字串轉化為Scrapy能使用的Dict
        :return:
        '''</span>
        itemDict = {}
        items = self.cookie.split(<span style="color:#009900">';'</span>)
        <span style="color:#000088">for</span> item <span style="color:#000088">in</span> items:
            key = item.split(<span style="color:#009900">'='</span>)[<span style="color:#006666">0</span>].replace(<span style="color:#009900">' '</span>, <span style="color:#009900">''</span>)
            value = item.split(<span style="color:#009900">'='</span>)[<span style="color:#006666">1</span>]
            itemDict[key] = value
        <span style="color:#000088">return</span> itemDict

    <span style="color:#000088">if</span> __name__ == <span style="color:#009900">"__main__"</span>:
    cookie = <span style="color:#009900">"你複製的cookie"</span>
    trans = transCookie(cookie)
    <span style="color:#000088">print</span> trans.stringToDict()
</code></span>

補充說明：

只需要將你網頁上的cookie複製到上述程式碼中直接執行就可以了

使用cookie操作scrapy

直接擼程式碼

<span style="color:#000000"><code>    <span style="color:#880000"># -*- coding: utf-8 -*-</span>
    <span style="color:#000088">import</span> scrapy
    <span style="color:#000088">from</span> scrapy.conf <span style="color:#000088">import</span> settings <span style="color:#880000">#從settings檔案中匯入Cookie，這裡也可以室友from scrapy.conf import settings.COOKIE</span>

    <span style="color:#000088">class</span> <span style="color:#4f4f4f">DemoSpider</span><span style="color:#4f4f4f">(scrapy.Spider)</span>:
    name = <span style="color:#009900">"demo"</span>
    <span style="color:#880000">#allowed_domains = ["csdn.com"]</span>
    start_urls = [<span style="color:#009900">"http://write.blog.csdn.net/postlist"</span>]
    cookie = settings[<span style="color:#009900">'COOKIE'</span>]  <span style="color:#880000"># 帶著Cookie向網頁發請求\</span>
    headers = {
        <span style="color:#009900">'Connection'</span>: <span style="color:#009900">'keep - alive'</span>,  <span style="color:#880000"># 保持連結狀態</span>
        <span style="color:#009900">'User-Agent'</span>: <span style="color:#009900">'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'</span>
    }
    <span style="color:#000088">def</span> <span style="color:#009900">start_requests</span><span style="color:#4f4f4f">(self)</span>:
        <span style="color:#000088">yield</span> scrapy.Request(url=self.start_urls[<span style="color:#006666">0</span>],headers=self.headers,cookies=self.cookie)<span style="color:#880000"># 這裡帶著cookie發出請求</span>

    <span style="color:#000088">def</span> <span style="color:#009900">parse</span><span style="color:#4f4f4f">(self, response)</span>:
        <span style="color:#000088">print</span> response.body</code></span>

說明

這裡是scrapy工程目錄下spiders目錄下的主要的解析網頁的py檔案相信學過scrapy的應該不會陌生，上述程式碼中的cookie值是放在Settings檔案中的，因此使用的時候需要匯入，當然你也可以直接將cookie貼上到這個檔案中

注意

雖說這裡使用直接使用cookie可以省去很多麻煩，但是cookie的生命週期特別的短，不過小型的專案足夠使用了，向那些需要爬兩三天甚至幾個月的專案就不適用了，因此在隔一段時間就要重新換cookie的值，雖說有很多麻煩，但是我還是比較喜歡這種方法的，因為可以省去不少腦筋

作者說

本人秉著方便他人的想法才開始寫技術文章的，因為對於自學的人來說想要找到系統的學習教程很困難，這一點我深有體會，我也是在不斷的摸索中才小有所成，如果你們覺得我寫的不錯就幫我推廣一下，讓更多的人看到。另外如果有什麼錯誤的地方也要及時聯絡我，方便我改進，謝謝大家對我的支援。

最後歡迎大家看看我的其他scrapy文章

scrapy設定代理ip

scrapy架構初探

scrapy初試

scrapy下載器中介軟體

Scrapy中使用cookie免於驗證登入和模擬登入

Scrapy中使用cookie免於驗證登入和模擬登入引言 python爬蟲我認為最困難的問題一個是ip代理，另外一個就是模擬登入了，更操蛋的就是模擬登入了之後還有驗證碼，真的是不讓人省心，不過既然有了反爬蟲，那麼就有反反爬蟲的策略，這裡就先介紹一個cookie模擬登陸，後續還有se

使用cookie繞過驗證碼進行模擬登入

1.工具 httpClient jar包任意抓包工具推薦 firefox的 firebug（非常好用）在使用httpClient進行模擬登入時，有時候會遇到需要輸入驗證碼的情況。而對驗證碼進行識別的方法既費時效果還不好。這裡提供一個取巧的方法，即使用

學生利用python破解驗證碼，模擬登入教務處檢視成績、搶課！

Python 的概念正式進入主題，每學期末都要搶課，學校的伺服器還賊渣。先說一個簡單的的方法，抓包，不斷地發起選課請求，但有一個明顯的缺點，那就是cookies容易過期。還得重新登陸替換cookies。於是，就有了今天要分享的內容。其大概分為兩個部分：1.自動登入

jsp中生成的驗證碼和存在session裡面的驗證碼不一致的處理

今天在除錯專案的時候發現，在提交表單的時候的驗證碼有問題，問題是這樣的：就是通過debug模式檢視得知：jsp頁面生成的驗證碼和表單輸入的頁面輸入的一樣，但是到後臺執行的時候，你會發現他們是不一樣的，現在上圖看看： 1.這是表單提交的時候: 2.這是後臺得到的生成的驗證碼

C# 中使用System.Net.Http.HttpClient 模擬登入部落格園 (GET/POST)

using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net.Http; using System.Text; using System.Text.RegularEx

PHP之CURL實現含有驗證碼的模擬登入

博主最近在為學校社團寫一個模擬登入教務系統來進行成績查詢的功能，語言當然是使用PHP啦，原理是通過php資料傳輸神器—curl擴充套件，向學校教務系統傳送請求，通過模擬登入，獲取指定url下的內容。在開始實驗之前有必要對curl擴充套件進行

使用PHP-curl獲取驗證碼並模擬登入教務系統

首先說一下這篇文章的需求，當我們在一些沒有提供驗證介面的系統中，需要驗證使用者身份的時候，就可能需要使用者登入當前系統，從而確定該使用者是當前系統的合法使用者，校園的教務系統就是一個典型的例子，我們通過學生自己登入學校的教務系統從而確定該使用者為在校生。但是

Filter過濾器+cookie實現自動登入和安全登入

實現思想：我們只要登陸成功就把登入資訊儲存到cookie中,將使用者名稱存入session中，下一次進入介面只要通過AutoLoginfilter攔截獲取cookie，如果有登入資訊的cookie就取出來，進行自動登入處理，每一次訪問通過secureLo

JS 中的自定義事件和模擬事件

在 JS 中模擬事件指的是模擬 JS 中定義的一些事件，例如點選事件，鍵盤事件等。自定義事件指的是建立一個自定義的，JS 中之前沒有的事件。接下來分別說一下建立這兩種事件的方法。建立自定義事件建立自定義事件可以使用 Event 和 CustomEvent 兩種方法，接下來分別做一下介紹。 1. 利用

移動端APP第一次登入和自動登入流程

App登陸儲存資料流程App因為要實現自動登陸功能，所以必然要儲存一些憑據，所以比較複雜。 App登陸要實現的功能：密碼不會明文儲存，並且不能反編繹解密；在伺服器端可以控制App端的登陸有效性，防止攻擊者拿到資料之後，可以長久地登陸；使用者如果密碼沒有洩露

登入和退出登入的操作邏輯

登入功能的操作邏輯步驟如下：可以分為五個步驟來實現。 1、進入頁面先判斷使用者是否已經登入 private void isLogin() { //檢視本地是否有使用者的登入資訊 SharedPreferences sp

Linux last（檢視當前登入和過去登入的使用者資訊）命令

last：檢視當前登入和過去登入的使用者資訊 last命令預設是讀取/var/log/wtmp檔案資料命令輸出：使用者名稱

踩坑：App上傳GooglePlay後Google登入和FaceBook登入異常

這段時間開啟新專案需要整合Google和FaceBook登入到專案中，經過一個多月的埋頭加班終於搞定了，打包測試都OK，於是開心的上傳到GooglePlay，然後第二天發現，我靠Google登入和F

單點登入和第三方登入的實現原理

單點登入：我們的單點登入系統，主要包含了登入驗證，token校驗、登出、註冊幾大功能，單點登入系統提供了統一的登入和註冊頁面，提供了統一的登入token校驗介面。單點登入的主要原理就是在登入成功以後，生成一個令牌，這個領跑要求每次登入唯一不可重複，我們就簡單的

Windows登入--本地登入和域登入

登入到本機的過程 1. 使用者首先按Ctrl+Alt+Del組合鍵。　　2. Winlogon檢測到使用者按下SAS鍵，就呼叫GINA，由GINA顯示登入對話方塊，以便使用者輸入賬號和密碼。　3. 使用者輸入賬號和密碼，確定後，GINA把資訊傳送給LSA進行驗證。　　4

php curl儲存登入資訊模擬登入

在模擬論壇登入的時候，伺服器上會生成一個cookie 這個時候需要把cookie儲存，再每次請求的時候帶上這個cookie就可以

scrapy知乎模擬登入和cookie登入

模擬登入# -*- coding: utf-8 -*- import scrapy from scrapy import cmdline #from scrapy.spiders import CrawlSpider import scrapy from scrap

使用cookie模擬登入用法之cookiejar 在urllib中的使用

# -*- coding: utf-8 -*- """ Created on Fri May 25 16:36:36 2018 @author: Administrator """ from http import cookiejar from urllib import request fro

session-cookie 和token登入驗證

最近研究了下基於token的身份驗證，並將這種機制整合在個人專案中。現在很多網站的認證方式都從傳統的seesion+cookie轉向token校驗。對比傳統的校驗方式，token確實有更好的擴充套件性與安全性。傳統的session+cookie身份驗證由於HTTP是無狀態的，它並不記錄使

C# 利用 HttpWebRequest 和 HttpWebResponse 模擬登入有驗證碼的網站

我們經常會碰到需要程式模擬登入一個網站，那如果網站需要填寫驗證碼的要怎樣模擬登入呢？這篇文章利用了 HttpWebRequest 和 HttpWebResponse 模擬登入了有驗證碼的網站。程式設計的介面很簡單，三個TextBox分別輸入使用者名稱、密碼和驗證碼，一個Image控制元

Scrapy中使用cookie免於驗證登入和模擬登入

Scrapy中使用cookie免於驗證登入和模擬登入

引言

cookie提取方法：

補充說明：

使用cookie操作scrapy

直接擼程式碼

說明

注意

作者說

最後歡迎大家看看我的其他scrapy文章

相關推薦