Python網路爬蟲--模擬登陸教務處網站

阿新 • • 發佈：2018-12-08

本文主要介紹如何利用Python的requests庫實現學校教務處網站的模擬登陸。關於教務處網站模擬登陸的典型應用主要有課程格子、超級課程表等，教務處網站形式多種多樣，但登陸的基本流程類似，即構建表單-提交表單-實現登陸。本文以我浙的教務處網站為例進行模擬登陸演示。

登陸流程分析

首先開啟我浙的教務處網站首頁，F12開啟開發者工具，輸入學號、使用者名稱、驗證碼，點選登陸之後，通過開發者工具可以看到，登陸過程包含3次請求，其中2次為暫時重定向(請求返回值為302代表暫時重定向)。

這裡寫圖片描述

表單分析

點選’Headers’,如下圖所示，易得第一次請求為表單提交(POST提交)。

這裡寫圖片描述
提交的表單如下：

這裡寫圖片描述

其中username, password, authcode分別為學號、密碼和驗證碼，後面的lt, execution, _eventld為表單隱藏值，表單隱藏值是反爬蟲的初級手段，那麼如何獲取表單隱藏值呢？

獲取表單隱藏值

表單隱藏值可以在實際登陸前，通過登陸介面表單填寫部分的HTML程式碼獲取，由下圖所示：

這裡寫圖片描述

可以看到，在登陸按鈕的HTML原始碼部分有3項隱藏的Input，觀察name和value值，顯然就是第一次請求POST的表單隱藏值。

獲取3次請求的網址

第一次請求的網址為固定的，即’https://grs.zju.edu.cn/cas/login?locale=zh_CN&service=http%3A%2F%2Fgrs.zju.edu.cn%2Fallogene%2Fpage%2Fhome.htm%3Flocale=zh_CN

‘；
按照上述分析構造表單，模擬POST請求，返回的’Response Headers’的Location即為第二次請求的網址；

這裡寫圖片描述

同樣的方式獲取第三次請求的網址；

這裡寫圖片描述

訪問第3次請求的網址，即可實現登陸，返回登陸之後的HTML程式碼。

這裡寫圖片描述

程式碼實現(Python2.7)

匯入相關包

import requests  # 匯入requests
import os
from bs4 import BeautifulSoup  # 匯入bs4中的BeautifulSoup
import time
from PIL import Image

實現第一次請求

log_url = 'https://grs.zju.edu.cn/cas/login?locale=zh_CN&service=http%3A%2F%2Fgrs.zju.edu.cn%2Fallogene%2Fpage%2Fhome.htm%3Flocale=zh_CN'
log_headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
               'Accept-Encoding':'gzip, deflate, sdch',
               'Accept-Language':'zh-CN,zh;q=0.8',
               'Cache-Control':'max-age=0',
               'Connection':'keep-alive',
               'Host':'grs.zju.edu.cn',
               'Upgrade-Insecure-Requests':'1',
               'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'             
               }
session = requests.Session()
log_html = session.get(url = log_url, headers = log_headers).text

需要注意的是：在訪問的過程中，因為涉及多次請求，一定要通過Session()的方式來保持網站的對話。

log_html為訪問教務處網站主頁返回的html文件，HTML文件的解析包挺多的，這裡我們選用BeautifulSoup來解析返回文件，獲取表單隱藏值。

log_Soup = BeautifulSoup(log_html, 'lxml')
submit_list = log_Soup.find('li', class_='mt10 pl10').find_all('input')
item_list = []
for input_item in submit_list:
    item_list.append([input_item['name'], input_item['value']])
log_data = dict(item_list)

獲取驗證碼圖片，進行驗證碼識別，驗證碼識別可以採用OCR方式或者機器學習的方法，這裡我們簡化一下，直接採用手動輸入的方式。

# 獲取驗證碼
auth_jpg_url = 'https://grs.zju.edu.cn/cas/Kaptcha.jpg'
picture = session.get(url = auth_jpg_url, headers = log_headers).content
auth_jpg = open('Kaptcha.jpg', 'wb')
auth_jpg.write(picture)
auth_jpg.close()

# 展示驗證碼
log_img = Image.open('Kaptcha.jpg')
log_img.show()

# 輸入驗證碼
authcode = raw_input('Please input authcode: ')
log_data['authcode'] = authcode

構建好表單後，即可實現第一次請求：

data = {'username':'******',               
        'password':'******',               
        'authcode':log_data['authcode'],
        'submit':'',
        'lt':log_data['lt'],
        'execution':log_data['execution'],
        '_eventId':log_data['_eventId']
        }

# 實際登陸
response = session.post(url = log_url, data = data, headers = log_headers, allow_redirects=False)
response_headers = dict(response.headers)
cookies = response.cookies.get_dict() # 用於第一次重定向

* 需要注意儲存每一次請求的cookies，以保持登陸狀態。 *

第二次請求

# 第一次重定向
home_first_url = response_headers['Location']
# session_1 = requests.Session()
response_1 = session.get(url = home_first_url, headers = log_headers, cookies = cookies, allow_redirects=False)
response_headers_1 = dict(response_1.headers)
cookies_1 = response_1.cookies.get_dict() # 用於第二次重定向

第三次請求

# 第二次重定向
home_second_url = response_headers_1['Location']
response_2 = session.get(url = home_second_url, headers = log_headers, cookies = cookies_1)
cookies_2 = response_2.cookies.get_dict()
final_html = response_2.text # 登陸之後返回的html文件

至此，大功告成，成功登陸教務處網站。

下面就可以做一些有意思的事情了，比如利用flask封裝一個API介面，進而做出課程表查詢、考試提醒、成績查詢等各種功能型應用。

詳細程式碼及說明可點選我的GitHub

廣告時間

個人部落格：http://ruanshubin.top
GitHub：https://github.com/Ruanshubin/

我的部落格和相關程式碼均會首發在上述兩個平臺，歡迎大家多去逛逛，增加點人氣，O(∩_∩)O哈哈~

這裡寫圖片描述

歡迎您掃一掃上面的二維碼，關注我的微信公眾號！

Python網路爬蟲--模擬登陸教務處網站

本文主要介紹如何利用Python的requests庫實現學校教務處網站的模擬登陸。關於教務處網站模擬登陸的典型應用主要有課程格子、超級課程表等，教務處網站形式多種多樣，但登陸的基本流程類似，即構建表單-提交表單-實現登陸。本文以我浙的教務處網站為例進行模擬登陸演示。登

通過抓包，實現Python模擬登陸各網站，原理分析！

瀏覽器中 cda class 登陸驗證查詢圖片自動化 cap 一、教程簡介 1.1 基本介紹通過分析登陸流程並使用 Python 實現模擬登陸到一個實驗提供的網站，在實驗過程中將學習並實踐 Python 的網絡編程，Python 實現模擬登陸的方法，使

用爬蟲模擬登陸urp教務處系統

本文轉自本人簡書內容詳情前言前段時間，小編抓取了搜狐新聞網某網頁的內容，並作詞雲分析，感覺很是爬蟲有趣。最近突然心血來潮想要爬取一下我們學校的教務系統抓取課表。思路解析 A 、先開啟登陸頁面，獲取cookies；B、再訪問驗證碼的地址，因為

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

前言：本篇部落格將爬取頂點小說網站全部小說、涉及到的問題有：Scrapy架構、斷點續傳問題、Mongodb資料庫相關操作。背景： Python版本：Anaconda3 執行平臺：Windows IDE：PyCharm 資料庫：MongoDB 瀏

python爬蟲模擬登陸知乎網

自從暑假學了大概一個月左右的爬蟲，開學之後就沒怎麼搞爬蟲了，當時也就學到scrapy框架就放下了，大致瞭解了一下框架，不是太理解，但是在這之前本人的爬蟲水平也僅僅侷限於爬取簡單頁面，爬取動態頁面也稍微瞭解下，但是一直沒有學模擬登陸，因為當時怎麼也搞不懂模擬登陸是

[python網路爬蟲]表單和登陸爬蟲

當你想編寫更為複雜的網頁爬蟲的時候，你面臨的第一個問題也許會是：“如何獲取登陸頁面後的資訊？”，因為網路已經飛快地向互動、社交媒體、使用者生成內容方向發展。表格和登陸就成為這些型別網站幾乎不可或缺的主要組成。幸運的是，表單和登陸還是相對比較容易處理的。截至當前，在我們之

[Python]網路爬蟲（三）：使用cookiejar管理cookie 以及模擬登入知乎

大家好哈，上一節我們研究了一下爬蟲的異常處理問題，那麼接下來我們一起來看一下Cookie的使用。為什麼要使用Cookie呢？ Cookie，指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料（通常經過加密）比如說有些網站需要登入後才

Python網路爬蟲實戰(四)模擬登入

對於一個網站的首頁來說，它可能需要你進行登入，比如知乎，同一個URL下，你登入與未登入當然在右上角個人資訊那裡是不一樣的。 (登入過) (未登入) 那麼你在用爬蟲爬取的時候獲得的頁面究竟是哪個呢？肯定是第二個，不可能說你不用登入就可以訪問到一個使用者自己的主頁資訊，那麼是什麼讓同一個URL在爬蟲訪問

爬蟲模擬登陸之formdata表單數據

name 圖片智聯招聘字段名 img 1-1 格式都是 blog 首先HTTP協議是個無連接的協議，瀏覽器和服務器之間是以循環往復的請求回復來交互的，交互的形式是以文件形式來進行的。比如在chrome開發者工具network中看到了每一行是一個文件，又文件大小

Scrapy 爬蟲模擬登陸的3種策略

除了 size 是我 settings extra art 代碼 erro 自定義 1 Scrapy 爬蟲模擬登陸策略前面學習了爬蟲的很多知識，都是分析 HTML、json 數據，有很多的網站為了反爬蟲，除了需要高可用代理 IP 地址池外，還需要登錄，登錄的時候不僅僅

python網路爬蟲（一）

網路爬蟲之前奏網路爬蟲之規則 Requests庫入門 requests庫的安裝 requests的詳細資訊 Win平臺: “以管理員身份執行” cmd，執行pip3 install requests。 requests庫安裝成功與否的測試

python網路爬蟲五

實戰三—向搜尋引擎提交搜尋請求關鍵點：利用搜索引擎提供的介面百度的介面：wd=“要搜尋的內容” 360的介面：q=“要搜尋的內容” 所以我們只要把我們提交給伺服器的url修改成對應的格式，就可以向搜尋引擎提交關鍵字。修改url，第一個想到的就是params引數。只

Python網路爬蟲快速入門到精通

阿里雲大學線上工作坊上線，原理精講+實操演練，讓你真正掌握雲端計算、大資料技能。 Python專家為你詳細講解爬蟲技術的原理與實戰，3大框架詳解+6場實戰演練+反爬技術+分散式爬蟲，講師線上答疑，全面掌握Python爬蟲。爬蟲有什麼用呢？你要找工作，想知道哪個崗位當前最熱門，爬取分析

python網路爬蟲四

實戰一，爬取京東商品 import requests url = "https://item.jd.com/27217068296.html" try: r = requests.get(url) r.raise_for_status() #獲取爬取失敗異常 r.enc

python網路爬蟲二

瞭解HTTP協議請求與響應模式的協議：使用者提出對URL（用來定位網路中的資源位置）地址資料的操作請求，伺服器給予相應。無狀態的應用層協議：兩次請求之間不會互相影響。 HTTP協議支援的請求種類：如果URL處的資源很龐大，我們就可以用head方法讀取部分資訊。

我的 Python 網路爬蟲直播分享要來了！

開篇之前先提一下上週日的事情。上週日的時候我參加了北京站的 PyCon China 2018 開發者大會，PyCon 大家知道的吧！就是 Python 界最大的技術開發者大會，會上會有很多 Python 開發者分享自己的相關開發經驗，開發者主要來自歐美國家，而 PyCon China 就是中國區的 PyC

python網路爬蟲一

大概框架 Request庫的安裝爬取網頁最好用的第三方庫直接安裝即可（用於OS X） pip3 install requests request庫的常用方法： request庫一共有七個常用方法。一個基本方法是request方法，其他的方法都是呼叫request方

Python網路爬蟲實戰

阿里雲大學：Python網路爬蟲實戰網路爬蟲（又被稱為網頁蜘蛛，網路機器人），是一種按照一定的規則，自動的抓取資訊的程式或者指令碼。網路爬蟲是網際網路上進行資訊採集的通用手段，在網際網路的各個專業方向上都是不可或缺的底層技術支撐。本課程從爬蟲基礎開始，全面介紹了Python網路爬蟲技術，

資料處理（玩轉python網路爬蟲）

從網頁上採集的資料後，大多數的資料是雜亂無章的，這時就需要對資料進行加工處理，去掉一些垃圾資料才能得到我們想要的資料。常用的方法有以下三種方法：字串操作，正則表示式和第三方模組庫。一、字串操作（擷取、替換、查詢和分割）（1）擷取：字串[開始位置:結束位置:間隔位置] 開始位置為

Requests庫函式的學習（玩轉python網路爬蟲）

一、請求方式 HTTP常用的請求方式是GET和POST，Requests對此區分兩種不同的請求方式。（1）GET請求 Requests的GET請求分為兩種：不帶引數和帶引數。判斷URL是否帶有引數，通過對“？”進行判斷，“？”表示帶有引數。 import requests # 第一

Python網路爬蟲--模擬登陸教務處網站

登陸流程分析

表單分析

獲取表單隱藏值

獲取3次請求的網址

程式碼實現(Python2.7)

匯入相關包

實現第一次請求

第二次請求

第三次請求

廣告時間

相關推薦