Spider--補充--Requests--session&cookie

阿新 • • 發佈：2020-06-29

# session 與 cookie

# 可能大家對session已經比較熟悉了，也大概瞭解了session的機制和原理，但是我們在做爬蟲時如何會運用到session呢，就是接下來要講到的會話保持。
# 首先說一下，為什麼要進行會話保持的操作？
# requests庫的session會話物件可以跨請求保持某些引數，說白了，就是比如你使用session成功的登入了某個網站，則在再次使用該session物件求求該
# 網站的其他網頁都會預設使用該session之前使用的cookie等引數尤其是在保持登陸狀態時運用的最多，在某些網站抓取，或者app抓取時，有的時強制登陸，
# 有的是不登陸返回的資料就是假的或者說是不完整的資料，那我們不可能去做到每一次請求都要去登陸一下怎麼辦，就需要用到保持會話的功能了，我們可以
# 只登陸一次，然後保持這種狀態去做其他的或者更多的請求。其次，我們該如何使用會話保持？舉一個事例來說明一下：

#requests.session():維持會話,可以讓我們在跨請求時儲存某些引數
 
import requests
 
#例項化session
session = requests.session()
url = 'https://www.douban.com/accounts/login'
form_data = {
    'source': 'index_nav',
    'form_email': 'xxx',
    'form_password': 'xxx',
    'captcha-solution': 'stamp',
    'captcha-id': 'b3dssX515MsmNaklBX8uh5Ab:en'}
#設定請求頭
req_header = {
    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
}
 
#使用session發起請求
response = session.post(url,headers=req_header,data=form_data)
if response.status_code == 200:
    #訪問個人主頁：
    url = 'https://www.douban.com/people/175417123/'
    response = session.get(url,headers = req_header)
    if response.status_code == 200:
        with open('douban3.html','w') as file:
            file.write(response.text)

            

import requests
import time
mycookie = { "PHPSESSID":"56v9clgo1kdfo3q5q8ck0aaaaa" }
x = requests.session()
requests.utils.add_dict_to_cookiejar(x.cookies,{"PHPSESSID":"07et4ol1g7ttb0bnjmbiqjhp43"})
x.get("http://127.0.0.1:80",cookies = mycookie)
time.sleep(5)
#請求以後抓包可以檢驗一下是不是新增成功
x.get("http://127.0.0.1:80")

# 這樣，通過requests.utils.add_dict_to_cookiejar對session物件設定cookie，之後所有的請求都會自動加上我自定義的cookie內容。
# 也可以通過requests.utils.cookiejar_from_dict 先生成一個cookiejar物件，到時候再賦值給session.cookies。
# 貌似還可以使用session.cookies.set()或者update()。

# 另外說一點單獨處理cookie欄位，處理為字典格式:
cookie = "SINAGLOBAL=821034395211.0111.1522571861723; wb_cmtLike_1850586643=1; [email protected]; wb_timefeed_1850586643=1; UOR=,,login.sina.com.cn; wvr=6; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWsNeq71O_sXkkXNnXFHgOW5JpX5KMhUgL.Fo2RSK5f1hqcShe2dJLoI0qLxK-L12qLB-zLxKqL1hnL1K2LxK-LBo5L12qLxKqL1hML1KzLxKnL1K.LB-zLxK-L1K-LBKqt; YF-V5-G0=c99031715427fe982b79bf287ae448f6; ALF=1556795806; SSOLoginState=1525259808; SCF=AqTMLFzIuDI5ZEtJyAEXb31pv1hhUdGUCp2GoKYvOW0LQTInAItM-ENbxHRAnnRUIq_MR9afV8hMc7c-yVn2jI0.; SUB=_2A2537e5wDeRhGedG7lIU-CjKzz-IHXVUm1i4rDV8PUNbmtBeLVrskW9NUT1fPIUQGDKLrepaNzTEZxZHOstjoLOu; SUHB=0IIUWsCH8go6vb; _s_tentry=-; Apache=921830614666.5322.1525261512883; ULV=1525261512916:139:10:27:921830614666.5322.1525261512883:1525239937212; YF-Page-G0=b5853766541bcc934acef7f6116c26d1"
cookie_dict = {i.split("=")[0]: i.split("=")[1] for i in cookie.split("; ")}
 

# 例項：    
import requests
from bs4 import BeautifulSoup

def getPage(url):
    """
    Utilty function used to get a Beautiful Soup object from a given URL
    """

    session = requests.Session()   # requests.session():維持會話,可以讓我們在跨請求時儲存某些引數

    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',
               'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'}
    try:
        req = session.get(url, headers=headers)
    except requests.exceptions.RequestException:
        return None
    bs = BeautifulSoup(req.text, 'html.parser')
    return bs

Spider--補充--Requests--session&cookie

# session 與 cookie # 可能大家對session已經比較熟悉了，也大概瞭解了session的機制和原理，但是我們在做爬蟲時如何會運用到session呢，就是接下來要講到的會話保持。

【轉】前端筆記之Vue（七）Vue-router&amp;axios&amp;Vue外掛&amp;Mock.js&amp;cookie|session&amp;加密

【轉】前端筆記之Vue（七）Vue-router&axios&Vue外掛&Mock.js&cookie|session&加密

JavaWeb - Cookie/Session&Filter/Listener&MVC

JavaWeb - Cookie/Session&Filter/Listener&MVC 目錄JavaWeb - Cookie/Session&Filter/Listener&MVC1 Cookie&Session1.1 會話技術1.1.1 會話技術的目的1.2 Cookie1.2.1 作用概述：1.2.2 Cookie使

JavaWeb16.2【Cookie&Session：Cookie的細節、作用和特點】

1 package com.haifei.cookie; 2 3 import javax.servlet.ServletException; 4 import javax.servlet.annotation.WebServlet;

Django 分頁原理&cookie和session介紹

內容概要批量插入資料分頁原理和分頁類的使用 cookie和session介紹 Django如何操作cookie

一文搞懂Session和Cookie的用法及區別

1. Session、Cookie是什麼 1.1 概念理解要了解session和cookie是什麼，先要了解以下幾個概念。

28 Session 和 Cookie 的概念

現在正式進入第四部分學習，作為開頭部分，我們首先要介紹下 Web 框架中常用到的 Cookie 和 Session 的概念。在瞭解了這些基礎知識後，我們就可以學習 Django 中是如何使用 Cookie 和 Session 幫我們完成一些簡單的必

Django Session和Cookie分別實現記住使用者登入狀態操作

簡介由於http協議的請求是無狀態的。故為了讓使用者在瀏覽器中再次訪問該服務端時，他的登入狀態能夠保留（也可翻譯為該使用者訪問這個服務端其他網頁時不需再重複進行使用者認證）。我們可以採用Cookie或Session這

linux系統session與cookie

1.使用phpmyadmin實現cookie和session 2.使用自己理解的方式，解釋一下cookie和session 3.使用程式碼的方式也可以（VScode有興趣的同學)

Session與Cookie

Session與Cookie 必讀20遍經典文章： https://blog.csdn.net/tanyunlong_nice/article/details/47188659

python之requests.session()使用

背景：使用requests.session會話物件先登入至豆瓣網，再進入“我的豆瓣”。

requests.session()傳送請求和使用requests直接傳送請求的區別

requests.session()傳送請求和使用requests直接傳送請求的區別一、Session 在requests裡，session物件是一個非常常用的物件，這個物件代表一次使用者會話：從客戶端瀏覽器連線伺服器開始，到客戶端瀏覽器與伺服器斷

requests模組 & xpath解析庫

1.requests模組介紹 # requests模組介紹對比:urllib使用麻煩安裝: pip install requests # 初體驗: 爬取搜狗首頁

Session、Cookie、Token 【淺談三者之間的那點事】

Cookie 和 Session HTTP 協議是一種無狀態協議，即每次服務端接收到客戶端的請求時，都是一個全新的請求，伺服器並不知道客戶端的歷史請求記錄；Session 和 Cookie 的主要目的就是為了彌補 HTTP 的無狀態特性。

帶你瞭解python爬蟲requests模組&BeautifulSoup使用方式！

requests模組介紹相對於python自帶的urllib模組，requests模組提供了相對更高層的api來進行網頁訪問的工作。

【網路通訊與資訊保安】之深入分析Token、session和cookie的使用場景和區別

在Web開發領域，相信大家對於 Cookie 和 Session 都很熟悉，Cookie 和 Session 都是會話保持技術的解決方案。隨著技術的發展，Token 機制出現在我們面前，不過很多開發者對於 Token 和 Cookie、Session 的區

一文理解Token、Session和Cookie

Web發展史線上購物，部落格，視訊等網站都需要管理會話，需要記錄儲存使用者的狀態和資訊，然而HTTP請求是無狀態的，如果每次請求都是一個新的HTTP協議，那麼使用者第一次發起請求，登入成功後，每次開啟一個頁面都

一文看懂 session 和 cookie

----------- cookie 大家應該都熟悉，比如說登入某些網站一段時間後，就要求你重新登入；再比如有的同學很喜歡玩爬蟲技術，有時候網站就是可以攔截住你的爬蟲，這些都和 cookie 有關。如果你明白了伺服器後端對於 co

Python模擬登入requests.Session應用詳解

最近由於某些原因，需要用到Python模擬登入網站，但是以前對這塊並不瞭解，而且目標網站的登入方法較為複雜，所以一下卡在這裡了，於是我決定從簡單的模擬開始，逐漸深入地研究下這塊。

Yii框架Session與Cookie使用方法示例

本文例項講述了Yii框架Session與Cookie使用方法。分享給大家供大家參考，具體如下：

Spider--補充--Requests--session&cookie

相關推薦