python爬蟲登入正方教務管理系統獲取成績資料

阿新 • • 發佈：2019-01-21

本程式以四川理工學院教務管理系統為例。。。。

準備工作：1.ruquests庫的使用(或者urllib也可行)

2.正則表示式的書寫

3.HTTP通訊基礎

4.一些解析庫的使用

準備一個瀏覽器監視工具，這裡我是用的是fiddler下載地址點選開啟連結

登入官網獲取到登入系統url:http://61.139.105.138/default2.aspx

這裡可以知道瀏覽器是先請求登入頁面，讓後轉到去獲取驗證碼圖片。

仔細分析驗證碼連線發現：

這個請求方式是get但包含有cookies

所以模擬登入前獲取驗證碼時需要帶上cookies否則登入會一直提示驗證碼錯誤

檢視傳送的請求

__VIEWSTATE可以在登入頁面的指令碼中捕捉到後面的資料便是post請求需要帶上的資料

最後對於網頁上的驗證碼問題，這裡選擇下載驗證碼圖片並自動開啟。

下面貼上模擬登入的程式碼

import requests
import re
from html.parser import *
import urllib.request
import os
x=[]
state=[]
class Scraper(HTMLParser):
    def handle_starttag(self,tag,attrs):
        if tag=='img':#驗證碼
            attrs=dict(attrs)
            if(attrs.__contains__('id')):
                x.append(attrs["src"])
        if tag=='input':#viewstate
            attrs=dict(attrs)
            if attrs.__contains__('name'):
                if attrs['name']=='__VIEWSTATE':
                    state.append(attrs['value'])

webpage=requests.get(url="http://61.139.105.138/default2.aspx")
Cookie=webpage.cookies#獲取網頁cookies
date=webpage.text
parser=Scraper()
parser.feed(date)
headers={
    'User-Agent':r'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0;  TheWorld 7)',
    }
while True:
    url="http://61.139.105.138/CheckCode.aspx"#驗證碼所在連線
    pic=requests.get(url,cookies=Cookie,headers=headers)
    if os.path.exists(r'f://yanzheng.jpg'):
        os.remove(r'f://yanzheng.jpg')
    with open(r'f://yanzheng.jpg','wb')as f:
        f.write(pic.content)
        f.close()
    username=input("輸入使用者名稱: ")
    password=input("輸入密碼 ")

    os.startfile(r'f:yanzheng.jpg')
    ycode=input("輸入彈出的驗證碼: ")

    payload={
             '__VIEWSTATE':state[0],
             'txtUserName':username,
             'TextBox2':password,
             'txtSecretCode':ycode,
             'RadioButtonList1':'%D1%A7%C9%FA',
             'Button1':"",
             'lbLanguage':'',
             'hidPdrs':'',
             'hidsc':'',
            }
    Log_in=r"http://61.139.105.138/default2.aspx"

    r=requests.post(url=Log_in,data=payload,headers=headers,cookies=Cookie)
    #用正則算了
    pat=r'<title>(.*?)</title>'#獲取標題的正則表示式
    x=re.findall(pat,r.text)
    if(x[0]=="歡迎使用正方教務管理系統！請登入"):
        print("登陸失敗")
        albert="defer>alert\('(.*?)'\)"
        err=re.findall(albert,r.text)
        print(err[0])
    else:
        print("登陸成功")

過程中遇到需要判斷登入是否成功，這裡選擇識別標記字元，我這邊抓取了網頁的標題，如果不成功標題就會是"歡迎使用正方教務管理系統！請登入"

在登入失敗的情況下依然可以通過正則表示式獲取登入失敗資訊

最後便是進入成績查詢介面，依舊先通過fiddler觀察瀏覽器的行為：

可以看出get請求相關資訊是學號，姓名，專案程式碼(姓名可以在登入頁面抓取)

值得注意的是headers中必須含有referer否則會被彈出

下面貼出相關程式碼：

 #抓一下名字
        catch='<span id="xhxm">(.*?)</span></em>'
        name=re.findall(catch,r.text)
        name=name[0]
        name=name[:-2]
        print(name)
        break
name=str(name).replace(r'\x','%')#擴大適用性
name=name.upper()
name=name[2:]

lheaders={
    'User-Agent':r'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0;  TheWorld 7)',
     'Referer':'http://61.139.105.138/xs_main.aspx?xh='+username#擴大適用性
    }
html=requests.get("http://61.139.105.138/xscjcx_dq.aspx?xh="+username+"&xm="+name+"&gnmkdm=N121605",cookies=Cookie,headers=lheaders)
#最後處理成績資訊
selectall=r'<td>(.*?)</td>'*17
result=re.findall(selectall,html.text)
xm=result[0]#專案分離
forma=[]
temp=''
for i in range(17):forma.append('')#17位的資料存放處理好的資料
for index in range(17):
    for item in result:
        temp=format("% -15s"%str(item[index]).strip())
        forma[index]+=temp


for each in forma:
    print(each)
input("查詢結束按下任意鍵退出")

這就是整個爬蟲實現的過程，允許相關輸入錯誤後再次輸入

最後貼上整個專案程式碼:

import requests
import re
from html.parser import *
import urllib.request
import os
import csv
x=[]
state=[]
class Scraper(HTMLParser):
    def handle_starttag(self,tag,attrs):
        if tag=='img':#驗證碼
            attrs=dict(attrs)
            if(attrs.__contains__('id')):
                x.append(attrs["src"])
        if tag=='input':#viewstate
            attrs=dict(attrs)
            if attrs.__contains__('name'):
                if attrs['name']=='__VIEWSTATE':
                    state.append(attrs['value'])

webpage=requests.get(url="http://61.139.105.138/default2.aspx")
Cookie=webpage.cookies#獲取網頁cookies
date=webpage.text
parser=Scraper()
parser.feed(date)
headers={
    'User-Agent':r'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0;  TheWorld 7)',
    }
while True:
    url="http://61.139.105.138/CheckCode.aspx"#驗證碼所在連線
    pic=requests.get(url,cookies=Cookie,headers=headers)
    if os.path.exists(r'f://yanzheng.jpg'):
        os.remove(r'f://yanzheng.jpg')
    with open(r'f://yanzheng.jpg','wb')as f:
        f.write(pic.content)
        f.close()
    username=input("輸入使用者名稱: ")
    password=input("輸入密碼 ")

    os.startfile(r'f:yanzheng.jpg')
    ycode=input("輸入彈出的驗證碼: ")

    payload={
             '__VIEWSTATE':state[0],
             'txtUserName':username,
             'TextBox2':password,
             'txtSecretCode':ycode,
             'RadioButtonList1':'%D1%A7%C9%FA',
             'Button1':"",
             'lbLanguage':'',
             'hidPdrs':'',
             'hidsc':'',
            }
    Log_in=r"http://61.139.105.138/default2.aspx"

    r=requests.post(url=Log_in,data=payload,headers=headers,cookies=Cookie)
    #用正則算了
    pat=r'<title>(.*?)</title>'#獲取標題的正則表示式
    x=re.findall(pat,r.text)
    if(x[0]=="歡迎使用正方教務管理系統！請登入"):print("登陸失敗")
    else:
        print("登陸成功")
        #抓一下名字
        catch='<span id="xhxm">(.*?)</span></em>'
        name=re.findall(catch,r.text)
        name=name[0]
        name=name[:-2]
        print(name)
        break
name=str(name).replace(r'\x','%')#擴大適用性
name=name.upper()
name=name[2:]

lheaders={
    'User-Agent':r'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0;  TheWorld 7)',
     'Referer':'http://61.139.105.138/xs_main.aspx?xh='+username#擴大適用性
    }
html=requests.get("http://61.139.105.138/xscjcx_dq.aspx?xh="+username+"&xm="+name+"&gnmkdm=N121605",cookies=Cookie,headers=lheaders)
#最後處理成績資訊
selectall=r'<td>(.*?)</td>'*17
result=re.findall(selectall,html.text)
xm=result[0]#專案分離
forma=[]
csvfile=open('f://result.csv','w',newline='')
writer=csv.writer(csvfile)
temp=''
for i in range(17):forma.append('')#17位的資料存放處理好的資料
for index in range(17):
    for item in result:
        temp=format("% -15s"%str(item[index]).strip())
        forma[index]+=temp

for each in forma:
    print(each)

for num,item in enumerate(result):
    for index,value in enumerate(item):#處理下result裡面的無規則資料
        if value==" ":
            result[num][index]=''

for item in result:
    writer.writerow(item)
csvfile.close()
input("爬蟲完成,結果存在F盤result.csv檔案下")

python爬蟲登入正方教務管理系統獲取成績資料

本程式以四川理工學院教務管理系統為例。。。。準備工作：1.ruquests庫的使用(或者urllib也可行) 2.正則表示式的書寫 3.HTTP通訊基礎 4.一些解析庫的使用準備

python爬蟲之正方教務管理系統查詢成績

目錄前言 0. 依賴及程式碼頭： 1. 登入 1) 驗證碼 2）登入請求構造 2. 跳轉到成績介面獲取成績 3. 輸出成績 4.整體程式碼前言以下的所有程式碼都基於python3

python爬取學校教務管理系統

寫這個爬蟲的緣由以前用java寫過一個爬取學校的教務系統的爬蟲 https://blog.csdn.net/ygdxt/article/details/81158321，最近痴迷Python爬蟲，瞭解到許多強大的庫，想再一次用學校的教務系統做下測試。這一次我首先想到的是新的教

正方教務管理系統後臺敏感日誌檢視漏洞

正方教務管理系統作為正方軟體的主打產品，從其官網瞭解到——截止至2012年10月，已有1,000餘所高校使用了其數字化校園資訊平臺。從百度的最新檢索結果也可見，成片成片的高校目前正在使用該教務系統。經筆者測試，大多數高校的正方教務系統版本都存在該漏洞，在教務系統的網

用Python實現模擬登入正方教務系統搶課

最近學校開始選課，但是如果選課時間與自己的事情衝突，這時候就可以使用Python指令碼自助搶課，搶課的第一步即是模擬登入，需要模擬登入後儲存登入資訊然後再進行操作。而且整個流程是比較簡單，這是因為正方教務系統是比較舊的，全文的IP地址部分遮擋，請換成你們學校的IP地址。

python實現小型教務管理系統，操作xml

前景學習python中看到廖老師的xml操作，便想著來玩一把～大概有sax等幾種方法，由於感覺這種比較麻煩，便找到了xml.etree.Element這個模組，輕量級的操作xml，挺好用的，關於記憶體佔用的問題，因為還沒遇到，似乎文件裡面有解決方案。學了xm

選修課有很多有趣的！用Python模擬登入學校教務系統搶課！

最近學校開始選課，但是如果選課時間與自己的事情衝突，這時候就可以使用Python指令碼自助搶課，搶課的第一步即是模擬登入，需要模擬登入後儲存登入資訊然後再進行操作。把css 圖片之類的過濾掉，發現了default.aspx這個東西如果你們學校教務系統不使用Cookie則會是這

python 函數寫商城管理系統

false 運行程序程序 password 獲取用戶信息退出行程 () python 函數首先我們要想到一個商城管理系統有什麽模塊？ 1.登陸 2添加商品 3刪除商品 4 查詢商品 5 程序退出但是以上模塊還是不夠，一個管理系統應該還有一個具有更高權限的管理帳號，

python實例_工資管理系統

break http lis with utf 服務 def span value 一，作者介紹吳海東：My Blog:http://www.cnblogs.com/whd-67270 二，程序說明 1. 查詢員工工資 2. 修改員工工資 3. 增加新員工記錄

[SakuraiYo][軟工作業(3)]用戶體驗分析：以“南通大學教務管理系統微信公眾號”為例

自動客戶端受限幫助信息 img 堅持理由公告作業一.目標基於實驗分析，體會用戶體驗設計的7 條準則。二. 要求（1）基於我們列出的 7 條UX評價準則，分析“南通大學教務管理系統微信公眾號” 在用戶體驗設計方面讓你覺得滿意的地方（不少於2點）；（20分）

用戶體驗分析: 以 “南通大學教務管理系統微信公眾號” 為例

-1 體驗推送基礎功 http src 主動推送管理校園南通大學教務管理微信公眾號是一個提供為師生教務信息管理的公眾號，是一個實用性的公眾號而非內容性的公眾號。滿意的地方：1.提供了基礎功能，能夠滿足日常需求；2.公眾號雖然沒有深度開發但會自動推送一條操作說明

第三次作業：用戶體驗分析: 以 “南通大學教務管理系統微信公眾號” 為例

大學 nbsp 系統關註 jpg dba back nav 推送優點項目 1..給用戶及時快速反饋能夠及時準確的推送四六級的相關消息等 2必要的提示和幫助文檔在關註公眾號過後，會有相關教程和提示，能夠了解到如何使用該公眾號 3.Visual Clarity，

軟工作業3：用戶體驗分析——以“南通大學教務管理系統微信公眾號”為例

結果我們體驗截圖客戶基於快捷要求用戶一、目標基於實例分析，體會用戶體驗設計的 7 條準則。二、要求 1.基於 7 條UX評價準則，分析“南通大學教務管理系統微信公眾號” 在用戶體驗設計方面滿意的地方並陳述理由。 2.同樣

Python-Flask框架之——圖書管理系統 , 附詳解源碼和效果圖 !

數據庫 mysql AS image http 分享圖片 bubuko 書籍 sql 該圖書管理系統要實現的功能: 1. 可以通過添加窗口添加書籍或作者, 如果要添加的作者和書籍已存在於書架上, 則給出相應的提示. 2. 如果要添加的作者存在, 而要添加的書籍書架上沒有,

python tkinter 學生信息管理系統

學生 span ace 滾動條 exp with open button 管理 nta 使用tkinter模塊，python3.6,主要功能有添加，查詢，刪除，修改學生信息下面貼出的是主界面和添加學生信息界面，剩下的就不貼出來了。。。。。。。。。

用Python實現簡單的名片管理系統

rem 代碼 card 刪除 import val 字典 fin pytho 首先新建項目，包含主程序cards_main和工具庫cards_tools：如下：main函數主主要使用while和if實現4功能切換，切換的具體操作由cards_tools中的函數執行。不說了

Python 爬蟲框架 Scrapy 在 Windows10 系統環境下的安裝和配置

環境： Windows10 系統、python3.4.3 版本安裝 Scrapy ：使用 pip 安裝 Scrapy,在命令列視窗中輸入命令 “pip install Scrapy”,若不報錯即可安裝成功。注意：可在命令列視窗中輸入命令“pip -h”測試 pip 模組是否已安

python面向物件銀行後臺管理系統

用簡單的面向物件方法模擬一個銀行終端處理器首先，先處理管理員登入，在這裡預設管理員登入賬號為admin 密碼為123456 # 管理員系統 class Admin: # 輸入引數管理員卡號管理員密碼 def __init__(self, account='a

python基礎之製作名片管理系統

主模組中的程式碼 #! /usr/bin/python3 # 終端中執行 import inlett_tools #死迴圈 while True: inlett_tools.card_show() card_ture = input("選擇您想要的操作:")

基於UML的高校教務管理系統的設計與實現

一、基本資訊標題：基於UML的高校教務管理系統的設計與實現時間：2018 出版源：南昌航空大學領域分類：教育資訊化；教務管理系統；UML；SSH；Oracle 二、研究背景問題定義：高校教務管理系統的設計與實現難點：想出新的資料錄入方式，採用面向物件的分析方法和設計思路來逐步實現一個較為完善的

python爬蟲登入正方教務管理系統獲取成績資料

相關推薦