1. 程式人生 > 程式設計 >爬蟲實戰之Scrapy模擬登陸

爬蟲實戰之Scrapy模擬登陸

想爬取網站資料?先登入網站!對於大多數大型網站來說,想要爬取他們的資料,第一道門檻就是登入網站。下面請跟隨我的步伐來學習如何模擬登陸網站。

為什麼進行模擬登陸?

網際網路上的網站分兩種:需要登入和不需要登入。(這是一句廢話!)

那麼,對於不需要登入的網站,我們直接獲取資料即可,簡單省事。而對於需要登入才可以檢視資料或者不登入只能檢視一部分資料的網站來說,我們只好乖乖地登入網站了。(除非你直接黑進人家資料庫,黑客操作請慎用!)

所以,對於需要登入的網站,我們需要模擬一下登入,一方面為了獲取登陸之後頁面的資訊和資料,另一方面為了拿到登入之後的 cookie ,以便下次請求時使用。

模擬登陸的思路

一提到模擬登陸,大家的第一反應肯定是:切!那還不簡單?開啟瀏覽器,輸入網址,找到使用者名稱密碼框,輸入使用者名稱和密碼,然後點選登陸就完事!

這種方式沒毛病,我們的 selenium 模擬登陸就是這麼操作的。

除此之外呢,我們的 Requests 還可以直接攜帶已經登陸過的 cookies 進行請求,相當於繞過了登陸。

我們也可以利用 Requests 傳送 post 請求,將網站登入需要的資訊附帶到 post 請求中進行登入。

以上就是我們常見的三種模擬登陸網站的思路,那麼我們的 Scrapy 也使用了後兩種方式,畢竟第一種只是 selenium 特有的方式。

Scrapy 模擬登陸的思路:

1、直接攜帶已經登陸過的 cookies 進行請求
2、將網站登入需要的資訊附帶到 post 請求中進行登入

模擬登陸例項

攜帶 cookies 模擬登陸

每種登陸方式都有它的優缺點以及使用場景,我們來看看攜帶 cookies 登陸的應用場景:

1、cookie 過期時間很長,我們可以登入一次之後不用擔心登入過期問題,常見於一些不規範的網站。
2、我們能在 cookie 過期之前把我們需要的所有資料拿到。
3、我們可以配合其他程式使用,比如使用 selenium 把登入之後的 cookie 獲取儲存到本地,然後在 Scrapy 傳送請求之前先讀取本地 cookie 。

下面我們通過模擬登入被我們遺忘已久的人人網來講述這種模擬登陸方式。

我們首先建立一個 Scrapy 專案:

> scrapy startproject login
複製程式碼

為了爬取順利,請先將 settings 裡面的 robots 協議設定為 False :

ROBOTSTXT_OBEY = False
複製程式碼

接著,我們建立一個爬蟲:

> scrapy genspider renren renren.com
複製程式碼

我們開啟 spiders 目錄下的 renren.py ,程式碼如下:

# -*- coding: utf-8 -*-
import scrapy


class RenrenSpider(scrapy.Spider):
    name = 'renren'
    allowed_domains = ['renren.com']
    start_urls = ['http://renren.com/']

    def parse(self,response):
        pass

複製程式碼

我們知道,start_urls 存的是我們需要爬取的第一個網頁地址,這是我們爬資料的初始網頁,假設我需要爬取人人網的個人中心頁的資料,那麼我登入人人網後,進入到個人中心頁,網址是:http://www.renren.com/972990680/profile ,如果我直接將這個網址放到 start_urls 裡面,然後我們直接請求,大家想一下,可不可以成功?

不可以,對吧!因為我們還沒有登入,根本看不到個人中心頁。

那麼我們的登入程式碼加到哪裡呢?

我們能確定的是我們必須在框架請求 start_urls 中的網頁之前登入。

我們進入 Spider 類的原始碼,找到下面這一段程式碼:

def start_requests(self):
        cls = self.__class__
        if method_is_overridden(cls,Spider,'make_requests_from_url'):
            warnings.warn(
                "Spider.make_requests_from_url method is deprecated; it "
                "won't be called in future Scrapy releases. Please "
                "override Spider.start_requests method instead (see %s.%s)." % (
                    cls.__module__,cls.__name__
                ),)
            for url in self.start_urls:
                yield self.make_requests_from_url(url)
        else:
            for url in self.start_urls:
                yield Request(url,dont_filter=True)

    def make_requests_from_url(self,url):
        """ This method is deprecated. """
        return Request(url,dont_filter=True)

複製程式碼

我們從這段原始碼中可以看到,這個方法從 start_urls 中獲取 URL ,然後構造一個 Request 物件來請求。既然這樣,我們就可以重寫 start_requests 方法來做一些事情,也就是在構造 Request 物件的時候把 cookies 資訊加進去。

重寫之後的 start_requests 方法如下:

# -*- coding: utf-8 -*-
import scrapy
import re

class RenrenSpider(scrapy.Spider):
    name = 'renren'
    allowed_domains = ['renren.com']
    # 個人中心頁網址
    start_urls = ['http://www.renren.com/972990680/profile']

    def start_requests(self):
        # 登入之後用 chrome 的 debug 工具從請求中獲取的 cookies
        cookiesstr = "anonymid=k3miegqc-hho317; depovince=ZGQT; _r01_=1; JSESSIONID=abcDdtGp7yEtG91r_U-6w; ick_login=d2631ff6-7b2d-4638-a2f5-c3a3f46b1595; ick=5499cd3f-c7a3-44ac-9146-60ac04440cb7; t=d1b681e8b5568a8f6140890d4f05c30f0; societyguester=d1b681e8b5568a8f6140890d4f05c30f0; id=972990680; xnsid=404266eb; XNESSESSIONID=62de8f52d318; jebecookies=4205498d-d0f7-4757-acd3-416f7aa0ae98|||||; ver=7.0; loginfrom=null; jebe_key=8800dc4d-e013-472b-a6aa-552ebfc11486%7Cb1a400326a5d6b2877f8c884e4fe9832%7C1575175011619%7C1%7C1575175011639; jebe_key=8800dc4d-e013-472b-a6aa-552ebfc11486%7Cb1a400326a5d6b2877f8c884e4fe9832%7C1575175011619%7C1%7C1575175011641; wp_fold=0"
        cookies = {i.split("=")[0]:i.split("=")[1] for i in cookiesstr.split("; ")}

        # 攜帶 cookies 的 Request 請求
        yield scrapy.Request(
            self.start_urls[0],callback=self.parse,cookies=cookies
        )

    def parse(self,response):
        # 從個人中心頁查詢關鍵詞"閒歡"並列印
        print(re.findall("閒歡",response.body.decode()))
複製程式碼

我先用賬號正確登入人人網,登入之後用 chrome 的 debug 工具從請求中獲取一個請求的 cookies ,然後在 Request 物件中加入這個 cookies 。接著我在 parse 方法中查詢網頁中的“閒歡”關鍵詞並列印輸出。

我們執行一下這個爬蟲:

>scrapy crawl renren
複製程式碼

在執行日誌中我們可以看到下面這幾行:

2019-12-01 13:06:55 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.renren.com/972990680/profile?v=info_timeline> (referer: http://www.renren.com/972990680/profile)
['閒歡','閒歡','閒歡']
2019-12-01 13:06:55 [scrapy.core.engine] INFO: Closing spider (finished)
複製程式碼

我們可以看到已經列印了我們需要的資訊了。

我們可以在 settings 配置中加 COOKIES_DEBUG = True 來檢視 cookies 傳遞的過程。

加了這個配置之後,我們可以看到日誌中會出現下面的資訊:

2019-12-01 13:06:55 [scrapy.downloadermiddlewares.cookies] DEBUG: Sending cookies to: <GET http://www.renren.com/972990680/profile?v=info_timeline>
Cookie: anonymid=k3miegqc-hho317; depovince=ZGQT; _r01_=1; JSESSIONID=abcDdtGp7yEtG91r_U-6w; ick_login=d2631ff6-7b2d-4638-a2f5-c3a3f46b1595; ick=5499cd3f-c7a3-44ac-9146-60ac04440cb7; t=d1b681e8b5568a8f6140890d4f05c30f0; societyguester=d1b681e8b5568a8f6140890d4f05c30f0; id=972990680; xnsid=404266eb; XNESSESSIONID=62de8f52d318; jebecookies=4205498d-d0f7-4757-acd3-416f7aa0ae98|||||; ver=7.0; loginfrom=null; jebe_key=8800dc4d-e013-472b-a6aa-552ebfc11486%7Cb1a400326a5d6b2877f8c884e4fe9832%7C1575175011619%7C1%7C1575175011641; wp_fold=0; JSESSIONID=abc84VF0a7DUL7JcS2-6w
複製程式碼

傳送 post 請求模擬登陸

我們通過模擬登陸 GitHub 網站為例,來講述這種模擬登陸方式。

我們首先建立一個爬蟲 github :

> scrapy genspider github github.com
複製程式碼

我們要用 post 請求模擬登陸,首先需要知道登陸的 URL 地址,以及登陸所需要的引數資訊。我們通過 debug 工具,可以看到登陸的請求資訊如下:

github_login_request.png

從請求資訊中我們可以找出登陸的 URL 為:https://github.com/session ,登陸所需要的引數為:

commit: Sign in
utf8: ✓
authenticity_token: bbpX85KY36B7N6qJadpROzoEdiiMI6qQ5L7hYFdPS+zuNNFSKwbW8kAGW5ICyvNVuuY5FImLdArG47358RwhWQ==
ga_id: 101235085.1574734122
login: [email protected]
password: xxx
webauthn-support: supported
webauthn-iuvpaa-support: unsupported
required_field_f0e5: 
timestamp: 1575184710948
timestamp_secret: 574aa2760765c42c07d9f0ad0bbfd9221135c3273172323d846016f43ba761db
複製程式碼

這個請求的引數真是夠多的,汗!

除了我們的使用者名稱和密碼,其他的都需要從登陸頁面中獲取,這其中還有一個 required_field_f0e5 引數需要注意一下,每次頁面載入這個名詞都不一樣,可見是動態生成的,但是這個值始終傳的都是空,這就為我們省去了一個引數,我們可以不穿這個引數。

其他的引數在頁面的位置如下圖:

github_login_params.png

我們用 xpath 來獲取各個引數,程式碼如下(我把使用者名稱和密碼分別用 xxx 來代替了,大家執行的時候請把自己真實的使用者名稱和密碼寫上去):

# -*- coding: utf-8 -*-
import scrapy
import re

class GithubSpider(scrapy.Spider):
    name = 'github'
    allowed_domains = ['github.com']
    # 登入頁面 URL
    start_urls = ['https://github.com/login']

    def parse(self,response):
        # 獲取請求引數
        commit = response.xpath("//input[@name='commit']/@value").extract_first()
        utf8 = response.xpath("//input[@name='utf8']/@value").extract_first()
        authenticity_token = response.xpath("//input[@name='authenticity_token']/@value").extract_first()
        ga_id = response.xpath("//input[@name='ga_id']/@value").extract_first()
        webauthn_support = response.xpath("//input[@name='webauthn-support']/@value").extract_first()
        webauthn_iuvpaa_support = response.xpath("//input[@name='webauthn-iuvpaa-support']/@value").extract_first()
        # required_field_157f = response.xpath("//input[@name='required_field_4ed5']/@value").extract_first()
        timestamp = response.xpath("//input[@name='timestamp']/@value").extract_first()
        timestamp_secret = response.xpath("//input[@name='timestamp_secret']/@value").extract_first()

        # 構造 post 引數
        post_data = {
            "commit": commit,"utf8": utf8,"authenticity_token": authenticity_token,"ga_id": ga_id,"login": "[email protected]","password": "xxx","webauthn-support": webauthn_support,"webauthn-iuvpaa-support": webauthn_iuvpaa_support,# "required_field_4ed5": required_field_4ed5,
            "timestamp": timestamp,"timestamp_secret": timestamp_secret
        }

        # 列印引數
        print(post_data)

        # 傳送 post 請求
        yield scrapy.FormRequest(
            "https://github.com/session",# 登入請求方法
            formdata=post_data,callback=self.after_login
        )

    # 登入成功之後操作
    def after_login(self,response):
        # 找到頁面上的 Issues 欄位並列印
        print(re.findall("Issues",response.body.decode()))
複製程式碼

我們使用 FormRequest 方法傳送 post 請求,執行爬蟲之後,報錯了,我們來看下報錯資訊:

2019-12-01 15:14:47 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://github.com/login> (referer: None)
{'commit': 'Sign in','utf8': '✓','authenticity_token': '3P4EVfXq3WvBM8fvWge7FfmRd0ORFlS6xGcz5mR5A00XnMe7GhFaMKQ8y024Hyy5r/RFS9ZErUDr1YwhDpBxlQ==','ga_id': None,'login': '[email protected]','password': '54ithero','webauthn-support': 'unknown','webauthn-iuvpaa-support': 'unknown','timestamp': '1575184487447','timestamp_secret': '6a8b589266e21888a4635ab0560304d53e7e8667d5da37933844acd7bee3cd19'}
2019-12-01 15:14:47 [scrapy.core.scraper] ERROR: Spider error processing <GET https://github.com/login> (referer: None)
Traceback (most recent call last):
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/utils/defer.py",line 102,in iter_errback
    yield next(it)
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/core/spidermw.py",line 84,in evaluate_iterable
    for r in iterable:
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/spidermiddlewares/offsite.py",line 29,in process_spider_output
    for x in result:
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/core/spidermw.py",in evaluate_iterable
    for r in iterable:
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/spidermiddlewares/referer.py",line 339,in <genexpr>
    return (_set_referer(r) for r in result or ())
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/core/spidermw.py",in evaluate_iterable
    for r in iterable:
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/spidermiddlewares/urllength.py",line 37,in <genexpr>
    return (r for r in result or () if _filter(r))
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/core/spidermw.py",in evaluate_iterable
    for r in iterable:
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/spidermiddlewares/depth.py",line 58,in <genexpr>
    return (r for r in result or () if _filter(r))
  File "/Users/cxhuan/Documents/python_workspace/scrapy_projects/login/login/spiders/github.py",line 40,in parse
    callback=self.after_login
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/http/request/form.py",line 32,in __init__
    querystr = _urlencode(items,self.encoding)
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/http/request/form.py",line 73,in _urlencode
    for k,vs in seq
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/http/request/form.py",line 74,in <listcomp>
    for v in (vs if is_listlike(vs) else [vs])]
  File "/Applications/anaconda3/lib/python3.7/site-packages/scrapy/utils/python.py",line 107,in to_bytes
    'object,got %s' % type(text).__name__)
TypeError: to_bytes must receive a unicode,str or bytes object,got NoneType
2019-12-01 15:14:47 [scrapy.core.engine] INFO: Closing spider (finished)
複製程式碼

看這個報錯資訊,好像是引數值中有一個引數取到 None 導致的,我們看下列印的引數資訊中,發現 ga_idNone ,我們再修改一下,當 ga_idNone 時,我們傳空字串試試。

修改程式碼如下:

ga_id = response.xpath("//input[@name='ga_id']/@value").extract_first()
if ga_id is None:
    ga_id = ""
複製程式碼

再次執行爬蟲,這次我們來看看結果:

Set-Cookie: _gh_sess=QmtQRjB4UDNUeHdkcnE4TUxGbVRDcG9xMXFxclA1SDM3WVhqbFF5U0wwVFp0aGV1UWxYRWFSaXVrZEl0RnVjTzFhM1RrdUVabDhqQldTK3k3TEd3KzNXSzgvRXlVZncvdnpURVVNYmtON0IrcGw1SXF6Nnl0VTVDM2dVVGlsN01pWXNUeU5XQi9MbTdZU0lTREpEMllVcTBmVmV2b210Sm5Sbnc0N2d5aVErbjVDU2JCQnA5SkRsbDZtSzVlamxBbjdvWDBYaWlpcVR4Q2NvY3hwVUIyZz09LS1lMUlBcTlvU0F0K25UQ3loNHFOZExnPT0%3D--8764e6d2279a0e6960577a66864e6018ef213b56; path=/; secure; HttpOnly

2019-12-01 15:25:18 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://github.com/> (referer: https://github.com/login)
['Issues','Issues']
2019-12-01 15:25:18 [scrapy.core.engine] INFO: Closing spider (finished)
複製程式碼

我們可以看到已經列印了我們需要的資訊,登入成功。

Scrapy 對於表單請求,FormRequest 還提供了另外一個方法 from_response 來自動獲取頁面中的表單,我們只需要傳入使用者名稱和密碼就可以傳送請求。

我們來看下這個方法的原始碼:

@classmethod
    def from_response(cls,response,formname=None,formid=None,formnumber=0,formdata=None,clickdata=None,dont_click=False,formxpath=None,formcss=None,**kwargs):

        kwargs.setdefault('encoding',response.encoding)

        if formcss is not None:
            from parsel.csstranslator import HTMLTranslator
            formxpath = HTMLTranslator().css_to_xpath(formcss)

        form = _get_form(response,formname,formid,formnumber,formxpath)
        formdata = _get_inputs(form,formdata,dont_click,clickdata,response)
        url = _get_form_url(form,kwargs.pop('url',None))

        method = kwargs.pop('method',form.method)
        if method is not None:
            method = method.upper()
            if method not in cls.valid_form_methods:
                method = 'GET'

        return cls(url=url,method=method,formdata=formdata,**kwargs)
複製程式碼

我們可以看到這個方法的引數有好多,都是有關 form 定位的資訊。如果登入網頁中只有一個表單, Scrapy 可以很容易定位,但是如果網頁中含有多個表單呢?這個時候我們就需要通過這些引數來告訴 Scrapy 哪個才是登入的表單。

當然,這個方法的前提是需要我們網頁的 form 表單的 action 裡麵包含了提交請求的 url 地址。

在 github 這個例子中,我們的登入頁面只有一個登入的表單,因此我們只需要傳入使用者名稱和密碼就可以了。程式碼如下:

# -*- coding: utf-8 -*-
import scrapy
import re

class Github2Spider(scrapy.Spider):
    name = 'github2'
    allowed_domains = ['github.com']
    start_urls = ['http://github.com/login']

    def parse(self,response):
        yield scrapy.FormRequest.from_response(
            response,# 自動從response中尋找form表單
            formdata={"login": "[email protected]","password": "xxx"},callback=self.after_login
        )
    # 登入成功之後操作
    def after_login(self,response.body.decode()))
複製程式碼

執行爬蟲後,我們可以看到和之前一樣的結果。

這種請求方式是不是簡單了許多?不需要我們費力去找各種請求引數,有沒有覺得 Amazing ?

總結

本文向大家介紹了 Scrapy 模擬登陸網站的幾種方法,大家可以自己運用文中的方法去實踐一下。當然,這裡沒有涉及到有驗證碼的情況,驗證碼是一個複雜並且難度很高的專題,以後有時間再給大家介紹。