python爬蟲-模擬微博登入

微博模擬登入

這是本次爬取的網址：https://weibo.com/

一、請求分析

找到登入的位置，填寫使用者名稱密碼進行登入操作

看看這次請求響應的資料是什麼

這是響應得到的資料，儲存下來

exectime: 8
nonce: "HW9VSX"
pcid: "gz-4ede4c6269a09f5b7a6490f790b4aa944eec"
pubkey: "EB2A38568661887FA180BDDB5CABD5F21C7BFD59C090CB2D245A87AC253062882729293E5506350508E7F9AA3BB77F4333231490F915F6D63C55FE2F08A49B353F444AD3993CACC02DB784ABBB8E42A9B1BBFFFB38BE18D78E87A0E41B9B8F73A928EE0CCEE1F6739884B9777E4FE9E88A1BBE495927AC4A799B3181D6442443"
retcode: 0
rsakv: "1330428213"
servertime: 1568257059

繼續完善登入操作，輸入密碼，點選登入按鈕

經過分析呢，發現變化的引數就是sp,nonce,servetime。servetime就是當前的時間戳，我們只需找到其他兩個引數的生成方法就好了。對了su這個引數是通過base64加密生成的

二、找到sp,nonce的加密方式

這次就不通過search關鍵字去找加密位置了

找到呼叫函式的位置，打上斷點，再進行登入操作

經過js程式碼流程除錯分析，最終我們找到了加密的位置

簡單介紹下怎麼除錯js程式碼

找到sp,nonce的位置，通過python程式碼去實現它的加密方式

sp它是通過rsa加密方式，加密生成的。rsa的具體用法可以通過百度找到。或者通過sha1加密生成。至於me.rsaPubkey

他怎麼得到的，他就是我們還沒有點選登入前，就發了一個請求，那個請求的響應資料就有它。如果你測試的次數多了的話，會發現這個值它是固定下來的。所以我們也可以直接去用，不用請求獲取。

nonce：它呢也出現過在未點選登入前的那個請求響應的資料中，但是呢，我們點了幾次登入，都未發現這個請求了。nonce的值每次還不一樣。所以它肯定是本地js檔案的某個函式生成，不用請求伺服器獲取。我們在這裡找到了nonce的生成函式

import random
import rsa
import hashlib
from binascii import b2a_hex

def get_nonce(n):
    result = ""
    random_str = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"
    for i in range(n):
        index = random.randint(0, len(random_str) - 1)
        result += random_str[index]
    return result


def get_sp_rsa(password, servertime, nonce):
    key = "EB2A38568661887FA180BDDB5CABD5F21C7BFD59C090CB2D245A87AC253062882729293E5506350508E7F9AA3BB77F4333231490F915F6D63C55FE2F08A49B353F444AD3993CACC02DB784ABBB8E42A9B1BBFFFB38BE18D78E87A0E41B9B8F73A928EE0CCEE1F6739884B9777E4FE9E88A1BBE495927AC4A799B3181D6442443"
    pubkey = rsa.PublicKey(int(key, 16), int("10001", 16))
    res = rsa.encrypt(bytes("" + "\t".join([servertime, nonce]) + "\n" + password,encoding="utf-8"), pubkey)
    return b2a_hex(res)


def get_sp_sha1(password, servertime, nonce):
    res = hashlib.sha1(bytes("" + hashlib.sha1(bytes(hashlib.sha1(bytes(password, encoding="utf-8")).hexdigest(),encoding="utf-8")).hexdigest() + servertime + nonce,encoding="utf-8")).hexdigest()
    return res

三、響應資料

請求引數分析的差不多了，這次輸入正確的使用者名稱，密碼。檢視響應的資料的是什麼。

開啟fiddler，然後退出當前賬號，重新進行登入操作。fiddler上面就會出現很多請求。找到需要的請求，看看響應內容

這樣做，每個響應都會set-cookie。所以照著上面的流程實現，標識登入的cookie肯定能得到。之後的話，只要帶上這個cookie去做其他操作就行了。

最後附上程式碼

import requests, random, time, rsa, hashlib, base64, re, json
from binascii import b2a_hex


class WeiBo:

    def __init__(self):
        self.session = requests.Session()
        self.headers = {
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
        }

    def login(self, account, password):
        api = "https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.19)"
        nonce = self._get_nonce()
        servertime = self._get_now_time()
        sp = self._get_sp_rsa(password, servertime, nonce)
        su = self._get_su(account)
        data = {
            "entry": "weibo",
            "gateway": "1",
            "from": "",
            "savestate": "7",
            "qrcode_flag": "false",
            "useticket": "1",
            "pagerefer": "https://login.sina.com.cn/crossdomain2.php?action=logout&r=https%3A%2F%2Fpassport.weibo.com%2Fwbsso%2Flogout%3Fr%3Dhttps%253A%252F%252Fweibo.com%26returntype%3D1",
            "vsnf": "1",
            "su": su,
            "service": "miniblog",
            "servertime": servertime,
            "nonce": nonce,
            "pwencode": "rsa2",
            "rsakv": "1330428213",
            "sp": sp,
            "sr": "1920*1080",
            "encoding": "UTF - 8",
            "prelt": "149",
            "url": "https://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack",
            "returntype": "META",
        }
        headers = self.headers.copy()
        headers.update({
            "Host": "login.sina.com.cn",
            "Origin": "https://weibo.com",
            "Referer": "https://weibo.com/"
        })

        response = self.session.post(api, headers=headers, data=data, allow_redirects=False)
        search_result = self._re_search("location.replace\(\"(.*?)\"", response.text)
        redirct_url = search_result and search_result.group(1)
        if not redirct_url:
            raise Exception("重定向url獲取失敗")
        response = self.session.get(redirct_url, headers=headers.update({
            "Referer": "https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.19)"
        }), allow_redirects=False)
        search_result = self._re_search('"arrURL":(.*?)}', response.text)
        redirct_urls = search_result and search_result.group(1)
        if not redirct_urls:
            raise Exception("重定向url獲取失敗")
        redirct_url_list = json.loads(redirct_urls)
        userId = ""
        for url in redirct_url_list:
            response = self.session.get(url, headers=self.headers)
            if url.startswith("https://passport.weibo.com/wbsso/login"):
                userId = self._re_search('"uniqueid":"(.*?)"', response.text).group(1)
        if not userId:
            raise Exception("userId獲取失敗")
        user_details_url = "https://weibo.com/u/{}/home?wvr=5&lf=reg".format(userId)
        response = self.session.get(user_details_url, headers={
            "Referer": "https://weibo.com/",
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
        })
        if self._re_search(userId, response.text):
            print("登入成功")
            print(self.session.cookies)
        else:
            print("登入失敗")

    def _get_nonce(self):
        nonce = ""
        random_str = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"
        for i in range(5):
            index = random.randint(0, len(random_str) - 1)
            nonce += random_str[index]
        return nonce

    def _get_now_time(self):
        return str(int(time.time()))

    def _get_sp_rsa(self, password, servertime, nonce):
        key = "EB2A38568661887FA180BDDB5CABD5F21C7BFD59C090CB2D245A87AC253062882729293E5506350508E7F9AA3BB77F4333231490F915F6D63C55FE2F08A49B353F444AD3993CACC02DB784ABBB8E42A9B1BBFFFB38BE18D78E87A0E41B9B8F73A928EE0CCEE1F6739884B9777E4FE9E88A1BBE495927AC4A799B3181D6442443"
        pubkey = rsa.PublicKey(int(key, 16), int("10001", 16))
        res = rsa.encrypt(bytes("" + "\t".join([servertime, nonce]) + "\n" + password, encoding="utf-8"), pubkey)
        return b2a_hex(res)

    def _get_sp_sha1(self, password, servertime, nonce):
        res = hashlib.sha1(bytes("" + hashlib.sha1(bytes(hashlib.sha1(bytes(password, encoding="utf-8")).hexdigest(),
                                                         encoding="utf-8")).hexdigest() + servertime + nonce,
                                 encoding="utf-8")).hexdigest()
        return res

    def _get_su(self, account):
        return str(base64.b64encode(bytes(account, encoding="utf-8")), encoding="utf-8")

    def _re_search(self, pattern, html):
        return re.search(pattern, html, re.S)

    def test(self):
        self.login("18716758777", "123456")


if __name__ == '__main__':
    wb = WeiBo()
    wb.test()
 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    python爬蟲-模擬微博登入
      微博模擬登入
這是本次爬取的網址：https://weibo.com/
一、請求分析
找到登入的位置，填寫使用者名稱密碼進行登入操作
 
看看這次請求響應的資料是什麼
 
這是響應得到的資料，儲存下來
exectime: 8
nonce: "HW9VSX"
pcid: "gz-4ede4c6269a09f5b 

  
 

    

    
    【python爬蟲-爬微博】爬取王思聰所有微博資料
       
 
 1. 準備： 
 
  代理IP 。網上有很多免費代理ip，如西刺免費代理IP http://www.xicidaili.com/，自己可找一個可以使用的進行測試；  
  抓包分析 。通過抓包獲取微博內容地址。當然web下的api地址可以通過瀏覽器獲得。 
 
 以下是通過瀏覽器除錯獲得 

  
 

    

    
    Python模擬微博抽獎機制！中獎十個九個半女生？自動統計男女比例
       
 
 今天來寫一個自動計算微博抽獎男女比例的程式碼，很早就應該發這篇了，只是不想蹭熱點（才不是拖更）。 
 整個的過程大概分為三步： 
 S1：從抽獎公示頁獲取所有中獎者的微博ID 
 S2：由每個中獎者的微博ID進入其相應主頁，獲得需要的個人資訊（性別、粉絲數、微博數等） 
 S3：對收集到的資訊進行相 

  
 

    

    
    爬蟲工程師教你如何用Python爬蟲模擬登入帶驗證碼網站！
       
 
 問題分析：
 1、爬取網站時經常會遇到需要登入的問題，這是就需要用到模擬登入的相關方法。python提供了強大的url庫，想做到這個並不難。這裡以登入學校教務系統為例，做一個簡單的例子。
 
 在這裡我還是要推薦下我自己建的Python開發學習群：483546416，都是學Python開發的，如果你 

  
 

    

    
    python爬蟲——模擬登入教務系統爬取成績
      
							
							
							主要思路 
1.模擬登入到教務處，獲取登入的cookie值，用獲取到的cookie值，訪問成績的網址，分析成績頁面，獲取成績資訊。 
2.打包成exe檔案，方便使用 ，我們可以用自己寫的程式快速查詢我們的成績，速度要比正常登入教務處網址查詢快很多，也比超級課程表 

  
 

    

    
    Python 模擬微博登陸，親測有效！
       
 
  
  
  
  
  今天想做一個微博爬個人頁面的工具，滿足一些不可告人的祕密。那麼首先就要做那件必做之事！模擬登陸……
  
  程式碼是參考了：https://www.douban.com/note/201767245/，我對程式碼進行了優化，重構成了Python 3.6 版本，並且加入了大 

  
 

    

    
    微博登入介面解析（python），為第三方登入做準備
      
							
							
							理解第三方登入的流程:

使用者向本地應用商城發起請求，我要用微博進行登入
我們的商城湊一個url讓使用者跳轉到第三方應用的url(微博的登入頁面)
使用者在該介面點選輸入使用者名稱密碼之後，點選授權。
微博有個回撥url指向我們的應用。
我們的應用就可以獲取到 

  
 

    

    
    Python 爬蟲-模擬登入知乎-爬取拉勾網職位資訊
      
用Python寫爬蟲是很方便的,最近看了xlzd.me的文章，他的文章寫的很到位，提供了很好的思路。因為他的文章部分程式碼省略了。下面是基於他的文章的三個程式碼片段:
基於Python3,Python2的話需要修改下input輸入函式和print的用法。

爬取豆瓣電影top250
爬取拉勾網職位資訊
模擬 

  
 

    

    
    【python 新浪微博爬蟲】python 爬取新浪微博24小時熱門話題top500
      
							
							
							一、需求分析 
模擬登陸新浪微博,爬取新浪微博的熱門話題版塊的24小時內的前TOP500的話題名稱、該話題的閱讀數、討論數、粉絲數、話題主持人，以及對應話題主持人的關注數、粉絲數和微博數。

二、開發語言 
python2.7

三、需要匯入模組 
import 

  
 

    

    
    Python新浪微博爬蟲程式
      
							
							
							寫在前面：本文比較詳細，不想看囉嗦的可以直接到這裡下載原始碼



0x00. 起因

因為參加學校大學生創新競賽，研究有關微博博文表達的情緒，需要大量微博博文，而網上無論是國內的某度、csdn，還是國外谷歌、gayhub、codeproject等都找不到想要的 

  
 

    

    
    Python爬蟲模擬登入(三)：手動輸入驗證碼，登入
      
								
								            
						
                拿到了引數password，還差一個驗證碼；imgurl表示驗證碼圖片地址；接收圖片並顯示；等待輸入驗證碼後提交post；    imgbuf = s.get(imgurl).content
    # 

  
 

    

    
    Python爬蟲模擬登入(四)：BeautifulSoup，爬取資料
      
								
								            
						
                登陸成功後爬取我們想要的資料；用到的庫：BeautifulSoupF12檢視網頁結構；     程式碼，依次向下找節點；def getInfo(html):
    soup = BeautifulSo 

  
 

    

    
    Python爬蟲模擬登入帶驗證碼網站
      

爬取網站時經常會遇到需要登入的問題，這是就需要用到模擬登入的相關方法。python提供了強大的url庫，想做到這個並不難。這裡以登入學校教務系統為例，做一個簡單的例子。

首先得明白cookie的作用，cookie是某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料。因此我們 

  
 

    

    
    Python模擬微博登陸，親測有效
      
                                                        開發十年，就只剩下這套架構體系了！
>>>   
                                        
              

  
 

    

    
    Python爬蟲模擬登錄帶驗證碼網站
      請求   handle   簡單的   hand   win   ron   secret   apple   cookielib   問題分析：
1、爬取網站時經常會遇到需要登錄的問題，這是就需要用到模擬登錄的相關方法。python提供了強大的url庫，想做到這個並不難。這裏以登錄學校教務系統為例，做一個簡 

  
 

    

    
    python  爬取微博信息
      微博   爬蟲   python   cookie      新浪微博爬取的話需要設計到登錄，這裏我沒有模擬登錄，而是使用cookie進行爬取。獲取cookie：代碼：#-*-coding:utf8-*-

from bs4 import BeautifulSoup
import requests
impor 

  
 

    

    
    python爬蟲--模擬登錄知乎
      print   url   開發   數字   pan   tps   參數   content   開發者    
 
 
 
 
1、處理登錄表單
處理登錄表單可以分為2步：
第一、查看網站登錄的表單，構建POST請求的參數字典；
第二、提交POST請求。
打開知乎登錄界面，https://www.zhi 

  
 

    

    
    用python爬取微博數據並生成詞雲
      font   意思   extra   很多   返回   json   自己   技術分享   pre   很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。
一年一度的虐汪節，是繼續蹲在角落默 

  
 

    

    
    python爬取微博圖片數據存到Mysql中遇到的各種坑python Mysql存儲圖片
      字符轉義   process   程序   zha   有一個   utf-8   get   ctime   python3   本人長期出售超大量微博數據，並提供特定微博數據打包，Message to [email protected]
前言
  由於硬件等各種原因需要把大概 

  
 

    

    
    Python學習---模擬微信網頁登錄180410
      link   符號   byod   分析   字符   uid   order   ons   tro   WEB微信  網頁登錄的猜想：          a. 訪問頁面出現二維碼          b. 長輪詢監聽是否已經掃碼並且點擊確認          c. 如何進行會話保持          d.