Python爬蟲模擬登入帶驗證碼網站

阿新 • • 發佈：2019-02-12

爬取網站時經常會遇到需要登入的問題，這是就需要用到模擬登入的相關方法。python提供了強大的url庫，想做到這個並不難。這裡以登入學校教務系統為例，做一個簡單的例子。

首先得明白cookie的作用，cookie是某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料。因此我們需要用Cookielib模組來保持網站的cookie。

這個是要登陸的地址 http://202.115.80.153/ 和驗證碼地址 http://202.115.80.153/CheckCode.aspx

可以發現這個驗證碼是動態更新的每次開啟都不一樣，一般這種驗證碼和cookie是同步的。其次想識別驗證碼肯定是吃力不討好的事，因此我們的思路是首先訪問驗證碼頁面，儲存驗證碼、獲取cookie用於登入，然後再直接向登入地址post資料。

首先通過抓包工具或者火狐或者谷歌瀏覽器分析登入頁面需要post的request和header資訊。以谷歌瀏覽器為例。

其中需要提交的表單資料中txtUserName和TextBox2分別使用者名稱和密碼。

現在直接到關鍵部分上程式碼！！

import urllib2
import cookielib
import urllib
import re
import sys
'''模擬登入'''
reload(sys)
sys.setdefaultencoding("utf-8")
# 防止中文報錯
CaptchaUrl = "http://202.115.80.153/CheckCode.aspx"
PostUrl = "http://202.115.80.153/default2.aspx"
# 驗證碼地址和post地址
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
# 將cookies繫結到一個opener cookie由cookielib自動管理
username = 'username'
password = 'password123'
# 使用者名稱和密碼
picture = opener.open(CaptchaUrl).read()
# 用openr訪問驗證碼地址,獲取cookie
local = open('e:/image.jpg', 'wb')
local.write(picture)
local.close()
# 儲存驗證碼到本地
SecretCode = raw_input('輸入驗證碼： ')
# 開啟儲存的驗證碼圖片 輸入
postData = {
'__VIEWSTATE': 'dDwyODE2NTM0OTg7Oz6pH0TWZk5t0lupp/tlA1L+rmL83g==',
'txtUserName': username,
'TextBox2': password,
'txtSecretCode': SecretCode,
'RadioButtonList1': '學生',
'Button1': '',
'lbLanguage': '',
'hidPdrs': '',
'hidsc': '',
}
# 根據抓包資訊 構造表單
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language': 'zh-CN,zh;q=0.8',
'Connection': 'keep-alive',
'Content-Type': 'application/x-www-form-urlencoded',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36',
}
# 根據抓包資訊 構造headers
data = urllib.urlencode(postData)
# 生成post資料 ?key1=value1&key2=value2的形式
request = urllib2.Request(PostUrl, data, headers)
# 構造request請求
try:
response = opener.open(request)
result = response.read().decode('gb2312')
# 由於該網頁是gb2312的編碼，所以需要解碼
print result
# 列印登入後的頁面
except urllib2.HTTPError, e:
print e.code
# 利用之前存有cookie的opener登入頁面

登入成功後便可以利用該openr訪問其他需要登入才能訪問的頁面。

爬蟲工程師教你如何用Python爬蟲模擬登入帶驗證碼網站！

問題分析： 1、爬取網站時經常會遇到需要登入的問題，這是就需要用到模擬登入的相關方法。python提供了強大的url庫，想做到這個並不難。這裡以登入學校教務系統為例，做一個簡單的例子。在這裡我還是要推薦下我自己建的Python開發學習群：483546416，都是學Python開發的，如果你

Python爬蟲模擬登入帶驗證碼網站

爬取網站時經常會遇到需要登入的問題，這是就需要用到模擬登入的相關方法。python提供了強大的url庫，想做到這個並不難。這裡以登入學校教務系統為例，做一個簡單的例子。首先得明白cookie的作用，cookie是某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料。因此我們

python requests模擬登陸帶驗證碼的網站

作為之前專利爬蟲的續篇，本篇準備描述如何通過python的requests模組登入專利查詢網站。環境準備 python 3.6 requests chrome嘗試首先，我們使用chrome嘗試登入專利網站，並通過network分析各個請求的相關資訊

Python爬蟲模擬登錄帶驗證碼網站

請求 handle 簡單的 hand win ron secret apple cookielib 問題分析： 1、爬取網站時經常會遇到需要登錄的問題，這是就需要用到模擬登錄的相關方法。python提供了強大的url庫，想做到這個並不難。這裏以登錄學校教務系統為例，做一個簡

Python爬蟲模擬登入(三)：手動輸入驗證碼，登入

拿到了引數password，還差一個驗證碼；imgurl表示驗證碼圖片地址；接收圖片並顯示；等待輸入驗證碼後提交post； imgbuf = s.get(imgurl).content #

C# 利用 HttpWebRequest 和 HttpWebResponse 模擬登入有驗證碼的網站

我們經常會碰到需要程式模擬登入一個網站，那如果網站需要填寫驗證碼的要怎樣模擬登入呢？這篇文章利用了 HttpWebRequest 和 HttpWebResponse 模擬登入了有驗證碼的網站。程式設計的介面很簡單，三個TextBox分別輸入使用者名稱、密碼和驗證碼，一個Image控制元

python3 遠端登入帶驗證碼

第一步：用burpsuite 或者fiddler 等抓包看 post提交的資料,方便設定 post 的data 包然後設定 header 和 data url = 'http://xxxxxxxx/login.php' s = requests.session() data = {

python爬蟲——模擬登入教務系統爬取成績

主要思路 1.模擬登入到教務處，獲取登入的cookie值，用獲取到的cookie值，訪問成績的網址，分析成績頁面，獲取成績資訊。 2.打包成exe檔案，方便使用，我們可以用自己寫的程式快速查詢我們的成績，速度要比正常登入教務處網址查詢快很多，也比超級課程表

Python 爬蟲-模擬登入知乎-爬取拉勾網職位資訊

用Python寫爬蟲是很方便的,最近看了xlzd.me的文章，他的文章寫的很到位，提供了很好的思路。因為他的文章部分程式碼省略了。下面是基於他的文章的三個程式碼片段: 基於Python3,Python2的話需要修改下input輸入函式和print的用法。爬取豆瓣電影top250 爬取拉勾網職位資訊模擬

Python爬蟲模擬登入(四)：BeautifulSoup，爬取資料

登陸成功後爬取我們想要的資料；用到的庫：BeautifulSoupF12檢視網頁結構；程式碼，依次向下找節點；def getInfo(html): soup = BeautifulSo

postman模擬帶驗證碼登入問題

今天研究一個問題，就是用postman模擬網站的帶驗證碼登入。本文把這一過程做個流水賬式記錄。我最初的設想是這樣： http是一種無連線無狀態協議，請求相應完畢連線即斷開，由於其無狀態，重複請求的身份認證一般通過session、cookie、url重寫這幾種方式來實現，我

[python爬蟲]爬取學校教務處以及登入過程驗證碼的處理

其實是半年前做的一段小程式碼，爬取自己的學校教務處網站大概是每個學習爬蟲的同學的入門必備吧（心疼一秒教務處）。其實想起來本科的時候有大神做了南理工GPA的網頁，其實也就是個爬蟲然後做了資料處理（只是我的猜測啦，不是請不要拍我。。），當時的教務處系統還比較簡單，也沒有驗證碼的

Python爬蟲之自動登入與驗證碼識別

轉自：http://blog.csdn.net/tobacco5648/article/details/50640691 在用爬蟲爬取網站資料時，有些站點的一些關鍵資料的獲取需要使用賬號登入，這裡可以使用requests傳送登入請求，並用Session物件來自動處理相關

關於java實現需要登入且帶驗證碼的定時網路爬蟲(爬取的資料存庫)

博主6月初的時候換了個工作，剛進來的時候什麼事沒有，愣是上班喝茶逛網站渡過了一週。那週週五的boss突然問我會不會爬蟲。作為一個才工作一年的javaer表示根本沒接觸過，但是那種情況下你還敢說不會麼，但是當時也不敢說的很絕對，因此就和boss就會一點。當時就隱隱約約有爬

python帶驗證碼登入

本次登入的是中國石油大學ACM的OJ（管理員不要打我），原型是hustoj，選擇的原因是驗證碼比較簡單，純數字。實際上利用了驗證碼頁面和登入頁面cookie的一致。但是在順序上我們需要先開啟驗證碼頁面，有興趣可以簡單測試一下： 1.開啟登入頁面（不要關閉）（http:/

爬蟲模擬登入破解無原圖滑動驗證碼

模擬登入物件:部落格園驗證碼型別：無原圖滑動驗證碼使用工具與模組:python，selenium 瀏覽器：Chrome 大體思路:以前的滑動驗證碼多為有原圖的驗證碼，可以通過Image模組擷取兩張不同的圖，通過對比畫素得出移動的距離，無原圖驗證碼也是基於這個原理，只是多了一步找出原圖，

Python爬蟲實例（四）網站模擬登陸

opener 運行 webkit zh-cn head window targe Coding 破解一、獲取一個有登錄信息的Cookie模擬登陸下面以人人網為例，首先使用自己的賬號和密碼在瀏覽器登錄，然後通過抓包拿到cookie，再將cookie放到請求之中發送請求即可

用python擷取螢幕特定位置（具體class）的圖片（多用於爬蟲時遇到的驗證碼擷取，再進行反反爬）

比如在爬蟲時遇到頁面顯示驗證碼驗證環節，需要先擷取到驗證碼，再識別、輸入驗證碼，完成識別過程。以爬取zhipin.com 為例。遇到的反爬頁面顯示如下：擷取思路： 1，用selenium開啟該反爬的頁面，截全屏 2，定位到驗證碼處，截圖儲存即可程式碼如下： fr

登入功能的開發(帶驗證碼)

1.因為要和資料庫進行連線，先獲取資料來源，建立連線物件。這些操作在工具類中完成。 public class DbUtil { private static DataSource ds=null; //建立連線池 static{ Propertie

winform模擬登陸（帶驗證碼）

CookieContainer cookies = new CookieContainer(); //驗證碼 &n

Python爬蟲模擬登入帶驗證碼網站

相關推薦