入坑爬蟲(五)Requests庫處理cookie

阿新 • • 發佈：2019-01-21

requess模組處理cookie相關的請求

爬蟲中使用cookie

為了能夠通過爬蟲獲取到登入後的頁面，或者是解決通過cookie的反扒，需要使用request來處理cookie相關的請求
爬蟲中使用cookie的利弊

能夠訪問登入後的頁面
能夠實現部分反反爬

帶上cookie的壞處:
一套cookie往往對應的是一個使用者的資訊，請求太頻繁有更大的可能性被對方識別為爬蟲
那麼上面的問題如何解決 ?使用多個賬號
requests處理cookie的方法

使用requests處理cookie有三種方法：
cookie字串放在headers中
把cookie字典放傳給請求方法的cookies引數接收
使用requests提供的session模組
cookie新增在heades中

在headers中使用cookie

headers = { "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
            "Cookie":" Pycharm-26c2d973=dbb9b300-2483-478f-9f5a-16ca4580177e; Hm_lvt_98b9d8c2fd6608d564bf2ac2ae642948=1512607763; Pycharm-26c2d974=f645329f-338e-486c-82c2-29e2a0205c74; _xsrf=2|d1a3d8ea|c5b07851cbce048bd5453846445de19d|1522379036"}

requests.get(url,headers=headers)

注意：
cookie有過期時間，所以直接複製瀏覽器中的cookie可能意味著下一程式繼續執行的時候需要替換程式碼中的cookie，對應的我們也可以通過一個程式專門來獲取cookie供其他程式使用；當然也有很多網站的cookie過期時間很長，這種情況下，直接複製cookie來使用更加簡單

使用cookies引數接收字典形式的cookie
cookies的形式：字典

cookies = {"cookie的name":"cookie的value"}
使用方法：
requests.get(url,headers=headers,cookies=cookie_dict}

使用requests.session處理cookie

前面使用手動的方式使用cookie，那麼有沒有更好的方法在requets中處理cookie呢？

requests 提供了一個叫做session類，來實現客戶端和服務端的會話保持

會話保持有兩個內涵：

儲存cookie，下一次請求會帶上前一次的cookie
實現和服務端的長連線，加快請求速度

使用方法
session = requests.session()
response = session.get(url,headers)
session例項在請求了一個網站後，對方伺服器設定在本地的cookie會儲存在session中，下一次再使用session請求對方伺服器的時候，會帶上前一次的cookie

動手練習一下：

動手嘗試使用session來登入人人網： http://www.renren.com/PLogin.do (先不考慮這個url地址從何而來)，請求體的格式：{“email”:”username”, “password”:”password”}

思路分析
準備url地址和請求引數
構造session傳送post請求
使用session請求個人主頁，觀察是否請求成功

原始碼

#coding:utf-8
import requests
import re

url = 'http://www.renren.com/PLogin.do'
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
}

post_data = {
    'email':'此處填寫賬號',
    'password': '此處填寫密碼'
}

# 建立session物件
session = requests.Session()
session.headers = headers

# 傳送post請求，模擬登陸
session.post(url, data=post_data)

# 驗證登入
response = session.get('此處填寫人人網個人中心頁面的url')
print(response.url)

入坑爬蟲(五)Requests庫處理cookie

requess模組處理cookie相關的請求

入坑爬蟲(五)Requests庫處理cookie

Python爬蟲之requests庫(五)：Cookie、超時、重定向和請求歷史

爬蟲之requests庫

爬蟲基礎(requests庫的基本使用)--02

【Python爬蟲】Requests庫的安裝

爬蟲入門requests庫疑惑

爬蟲之 Requests庫的基本使用

【爬蟲】Requests 庫的入門學習

Cookiejar 庫處理 cookie 儲存回話視窗的登陸狀態

Python網路爬蟲之requests庫Scrapy爬蟲比較

Python爬蟲之Requests庫的基本使用

Python爬蟲系列-Requests庫詳解

爬蟲之Requests庫應用例項

第十二章避開採集的陷阱使用selenium庫處理cookie

【爬蟲】Requests 庫的入門學習

python爬蟲之requests庫詳解（一，如何通過requests來獲得頁面資訊）

[python爬蟲學習] requests庫的使用

Python 爬蟲基礎Requests庫的使用（二十一）

入坑爬蟲(六)某招聘網站資訊採集

Python爬蟲之requests庫(三)：傳送表單資料和JSON資料

入坑爬蟲(五)Requests庫處理cookie

requess模組處理cookie相關的請求

相關推薦