爬蟲——cookie模擬登陸

阿新 • • 發佈：2019-09-06

cookie適用於抓取需要登入才能訪問的頁面網站

cookie和session機制

http協議為無連線協議，cookie: 存放在客戶端瀏覽器，session: 存放在Web伺服器

人人網登入案例

方法一：登入網站手動抓取Cookie

1、先登入成功1次，獲取到攜帶登陸資訊的Cookie

登入成功 - 個人主頁（http://www.renren.com/971989504/profile） - F12抓包 - 重新整理個人主頁 - 找到主頁的包(home)

　　一般cookie都在all--> home 資料包中，

2、攜帶著cookie發請求

import requests

class RenRenLogin(object):
   def __init__(self):
       # url為需要登入才能正常訪問的地址
       self.url = 'http://www.renren.com/967469305/profile'
       # headers中的cookie為登入成功後抓取到的cookie
       self.headers = {
           # 此處注意cookie，要自己抓取
           "Cookie": "xxx",
           "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36",
      }

   # 獲取個人主頁響應
   def get_html(self):
       html = requests.get(url=self.url,headers=self.headers,verify=False).text
       print(html)
       self.parse_html(html)

   # 可獲取並解析整個人人網內需要登入才能訪問的地址
   def parse_html(self,html):
       pass

if __name__ == '__main__':
   spider = RenRenLogin()
   spider.get_html()

方法二：requests模組處理Cookie

requests模組提供了session類，來實現客戶端和服務端的會話保持

1、例項化session物件

session = requests.session()

2、讓session物件傳送get或者post請求

res = session.post(url=url,data=data,headers=headers)

res = session.get(url=url,headers=headers)

3. 思路梳理

瀏覽器原理: 訪問需要登入的頁面會帶著之前登入過的cookie

程式原理: 同樣帶著之前登入的cookie去訪問 - 由session物件完成

1、例項化session物件

2、登入網站: session物件傳送請求，登入對應網站，把cookie儲存在session物件中

3、訪問頁面: session物件請求需要登入才能訪問的頁面,session能夠自動攜帶之前的這個cookie,進行請求

具體步驟

1、尋找登入時POST的地址

在登陸介面檢視網頁原始碼，檢視form表單，找action對應的地址: http://www.renren.com/PLogin.do

2、傳送使用者名稱和密碼資訊到POST的地址

* 使用者名稱和密碼資訊以字典的方式傳送

鍵：<input>標籤中name的值(email,password)

值：真實的使用者名稱和密碼

post_data = {'email':'','password':''}

程式實現

1、先POST: 把使用者名稱和密碼資訊POST到某個地址中

2、再GET: 正常請求去獲取頁面資訊

import requests
from lxml import etree


class RenrenSpider(object):
    def __init__(self):
        self.post_url = 'http://www.renren.com/PLogin.do'
        self.get_url = 'http://www.renren.com/967469305/profile'
        # email和password為<input>節點中name的屬性值
        self.form_data = {
            'email': '******',     # 使用者名稱
            'password': '*******'} # 密碼
        self.session = requests.session()  # 例項化session會話保持物件
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',
            'Referer': 'http://www.renren.com/SysHome.do'}

    # 先post 再get
    def get_html(self):
        # 先POST,把使用者名稱和密碼資訊POST到一個地址
        self.session.post(url=self.post_url, data=self.form_data, headers=self.headers)
        # 再session.get()個人主頁
        html = self.session.get(url=self.get_url, headers=self.headers).text
        self.parse_html(html)

    def parse_html(self, html):
        parse_html = etree.HTML(html)
        r_list = parse_html.xpath('//li[@class="school"]/span/text()')
        print(r_list)


if __name__ == '__main__':
    spider = RenrenSpider()
    spider.get_html()

方法三

1、把抓取到的cookie處理為字典
2、使用requests.get()中的引數:cookies

import requests
from lxml import etree


class RenrenLogin(object):
    def __init__(self):
        # url為需要登入才能正常訪問的地址
        self.url = 'http://www.renren.com/967469305/profile'
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}

    # 將字串cookie轉為字典格式
    def get_cookie_dict(self):
        cookie_dict = {}
        cookies = 'td_cookie=18446744073093166409; anonymid=jzc3yiknvd9kwr; depovince=GW; jebecookies=67976425-f482-44a7-9668-0469a6a14d16|||||; _r01_=1; JSESSIONID=abcp_jUgWA4RdcgwXqtYw; ick_login=f502b729-d6cb-4085-8d74-4308a0a8a17d; _de=4DBCFCC17D9E50C8C92BCDC45CC5C3B7; p=cae86d9f12c5a1ba30901ad3d6ac992f5; first_login_flag=1; ln_uact=13603263409; ln_hurl=http://hdn.xnimg.cn/photos/hdn221/20181101/1550/h_main_qz3H_61ec0009c3901986.jpg; t=6d191b90a0236cea74f99b9d88d3fbd25; societyguester=6d191b90a0236cea74f99b9d88d3fbd25; id=967469305; xnsid=6cbc5509; ver=7.0; loginfrom=null; jebe_key=bd6eb791-92b2-4141-b8ed-53d17551d830%7C2012cb2155debcd0710a4bf5a73220e8%7C1565838783310%7C1%7C1565838784555; jebe_key=bd6eb791-92b2-4141-b8ed-53d17551d830%7C2012cb2155debcd0710a4bf5a73220e8%7C1565838783310%7C1%7C1565838784558; wp_fold=0'
        for kv in cookies.split('; '):
            # kv: 'td_cookie=184xxx'
            key = kv.split('=')[0]
            value = kv.split('=')[1]
            cookie_dict[key] = value

        return cookie_dict

    # 獲取個人主頁響應
    def get_html(self):
        # 獲取cookies
        cookies = self.get_cookie_dict()
        print(cookies)
        html = requests.get(url=self.url, headers=self.headers, cookies=cookies, ).text
        self.parse_html(html)

    # 可獲取並解析整個人人網內需要登入才能訪問的地址
    def parse_html(self, html):
        parse_html = etree.HTML(html)
        r_list = parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li[1]/span/text()')
        print(r_list)


if __name__ == '__main__':
    spider = RenrenLogin()
    spider.get_html()

爬蟲——cookie模擬登陸

cookie適用於抓取需要登入才能訪問的頁面網站 cookie和session機制 http協議為無連線協議，cookie: 存放在客戶端瀏覽器，session: 存放在Web伺服器人人網登入案例方法一：登入網站手動抓取Cookie 1、先登入成功1次，獲取到攜帶登陸資訊的Coo

20170717_python爬蟲之requests+cookie模擬登陸

ssi alert 之前 lose net .html .net 裝載 onos 在成功登陸之前,失敗了十幾次。完全找不到是什麽原因導致被網站判斷cookie是無效的。直到用了firefox的httpfox之後才發現cookie裏還有一個ASP.NET_SessionI

Python3網路爬蟲：使用Cookie-模擬登陸

該文是http://blog.csdn.net/c406495762部落格的學習筆記. 為什麼要使用Cookie Cookie，指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料（通常經過加密)。比如說有些網站需要登入後才能訪問某個頁面，

爬蟲學習之17：爬取拉勾網網招聘資訊（非同步載入+Cookie模擬登陸）

很多網站需要通過提交表單來進行登陸或相應的操作，可以用requests庫的POST方法，通過觀測表單原始碼和逆向工程來填寫表單獲取網頁資訊。本程式碼以獲取拉勾網Python相關招聘職位為例作為練習。開啟拉鉤網，F12進入瀏覽器開發者工具，可以發現網站使用了A

python全棧系列之---cookie模擬登陸和模擬session原理

ger -c AD log print imp 數據庫 sta 這一 cookie模擬登陸： import tornado.web class IndexHandler(tornado.web.RequestHandler): def get(self):

22.天眼查cookie模擬登陸采集數據

cat from undefined 地址 answer Language ase 圖片 count 通過賬號登錄獲取cookies，模擬登錄（前提有天眼查賬號），會員賬號可查看5000家，普通只是100家，同時也要設置一定的反爬措施以防賬號被封。拿有權限的賬號去獲取co

python爬蟲6——模擬登陸人人網

用python怎麼自動登入一個網站呢？之前我也有過這樣的疑問，老自己去填，多麻煩啊，接下來這篇文章將講解怎麼用python2模擬登陸人人網。一、用fiddler檢視登入資訊模擬登陸第一步，用fiddler檢視發出訪問資訊的請求：網頁：輸入多次後，會要求輸入驗證碼：

PythonScript_003_通過Cookie模擬登陸人人網

#!/usr/bin/env python # -*- coding:utf-8 -*- import urllib.request import http.cookiejar # 相當於Python2的cookielib ''' 通過Cookie模擬登陸人人網，獲取請求總結：1、POS

python 爬蟲之模擬登陸

import requests def run(): url = "http://jira.1handcar.com:14001/secure/BrowseProjects.jspa" headers = {'Host':'jira.1handcar.com:14001'

Python3爬蟲之模擬登陸

爬取一些不需要登陸的網址操作已經試過了，這次來用Python嘗試需要登陸的網址，來利用cookie模擬登陸我用的是火狐瀏覽器自帶的F12開發者工具，開啟網址輸入賬號，密碼，登陸，如圖可以看到捕捉到很多post和get請求，第一個post請求就是我們提交賬號和密

Python爬蟲之模擬登陸知乎

在chrome瀏覽器下抓取登陸過程的包（注意把Preserve log勾上）：表單的結構主要包括_xsrf, password, phone_num 我們要找到_xsrf的值，重新載入zhihu.

python爬蟲(一):模擬登陸微博

最近花了不少時間來學python爬蟲，覺得還是有很多問題的，比如說requests.get獲得Pixiv的網頁原始碼，一直獲取不到，不過我猜測大概是headers的問題，準備之後處理。廢話少說我們先來講一講模擬登陸微博的問題。第一步:用Chrome來抓包

網頁爬蟲-通過已登入後的cookie，模擬登陸狀態，保持會話進行後續操作

剛開始的時候打算使用java程式直接登陸網站在進行後續操作，後來發現有些網站的重定向太多不好操作，所以改用已登入的cookie 來保持會話，使用方式很簡單，只需要在瀏覽器上登入你要操作的網站，然後獲取cookie值，將cookie放到程式裡就實現了儲存會話的功能了， 1、新增mave

python 爬蟲：利用selenium抓取cookie進行模擬登陸

說明： selenium抓取cookie模擬登陸，理論上可以登入任何網站。以下兩段程式碼分別介紹抓取cookie，和攜帶cookie登入。抓取cookie.json程式碼 import

模擬登陸CSDN -- Python爬蟲練習之正則表示式和cookie

　　這周學習的主題是正則表示式和cookie，原本是計劃每天晚上11點下班到家，練上一兩個鍾就把這部分過了，結果這周各種事情和不再狀態，所以沒整完，直至今天才把相關問題過掉。其實這部分也挺不錯的，也並沒有想象中容易，所以好事多磨。這周練習的綜合習題就是模擬登陸C

爬蟲模擬登陸之formdata表單數據

name 圖片智聯招聘字段名 img 1-1 格式都是 blog 首先HTTP協議是個無連接的協議，瀏覽器和服務器之間是以循環往復的請求回復來交互的，交互的形式是以文件形式來進行的。比如在chrome開發者工具network中看到了每一行是一個文件，又文件大小

Python爬蟲實例（四）網站模擬登陸

opener 運行 webkit zh-cn head window targe Coding 破解一、獲取一個有登錄信息的Cookie模擬登陸下面以人人網為例，首先使用自己的賬號和密碼在瀏覽器登錄，然後通過抓包拿到cookie，再將cookie放到請求之中發送請求即可

運維學python之爬蟲高級篇（六）scrapy模擬登陸

markdown inux ins com 是否準備配置獲取圖片 con 上一篇介紹了如何爬取豆瓣TOP250的相關內容，今天我們來模擬登陸GitHub。 1 環境配置語言：Python 3.6.1 IDE： Pycharm 瀏覽器：firefox 抓包工具：fi

Python爬蟲學習筆記之模擬登陸並爬去GitHub

過程 eight res 開發者工具 @value clas 之前自己 8.0 (1)環境準備: 請確保已經安裝了requests和lxml庫 (2)分析登陸過程: 首先要分析登陸的過程，需要探究後臺的登陸請求是怎樣發送的，登陸之後又有怎樣的

Scrapy 爬蟲模擬登陸的3種策略

除了 size 是我 settings extra art 代碼 erro 自定義 1 Scrapy 爬蟲模擬登陸策略前面學習了爬蟲的很多知識，都是分析 HTML、json 數據，有很多的網站為了反爬蟲，除了需要高可用代理 IP 地址池外，還需要登錄，登錄的時候不僅僅

爬蟲——cookie模擬登陸

cookie和session機制

人人網登入案例

方法一：登入網站手動抓取Cookie

方法二：requests模組處理Cookie

方法三

相關推薦