Python爬蟲----爬蟲入門（4）---urllib2 模擬登陸

阿新 • • 發佈：2019-01-25

開發環境，ubuntu 14.0.1自帶python 2.7.6

接下來要開始抓取需要登陸才能抓取的頁面：
這裡先抓一個不需要驗證的網站：學校的官網：
找到登陸框，輸入密碼賬號，登陸。（先開啟開發者工具）
推薦谷歌和火狐瀏覽器：
Network–>找到登陸請求的post資料–>Formdata: 這裡寫圖片描述

接下來就要構造formdata資料，然後post上傳；
具體程式碼如下：（首先找到登陸地址）

PostUrl = "http://passport.****.edu.cn/Ajax.ashx?action=Login"
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
# 將cookies繫結到一個opener cookie由cookielib自動管理 

username='******'
password='*********'
usertype='@****.edu.c'
postData={
'UID':username,
'Password':password,
'UserType':'@******.edu.cn',
'arguement':'69ABA4CA01809D612F5B571E1C9587E75C3295CA'
}
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language' 
: 'zh-CN,zh;q=0.8',
'Connection': 'keep-alive',
'Content-Type': 'application/x-www-form-urlencoded',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36',
}

# 根據抓包資訊 構造headers
data = urllib.urlencode(postData)
# 生成post資料 ?key1=value1&key2=value2的形式 

request = urllib2.Request(PostUrl, data, headers)
# 構造request請求
try:
    response = opener.open(request)
    result = response.read()
    # 由於該網頁是gb2312的編碼，所以需要解碼
    print result
    # 列印登入後的頁面
except urllib2.HTTPError,e:
    print e.code

具體解釋檢視註釋即可，我們通過post登陸成功得到cookie，儲存好（也可以輸出到文字）就能使用這個cookie登陸其他需要登陸才能訪問的頁面。

cookie使用方法如下：

#使用cookie
response = opener.open(CaptchaUrl)
print response.read()

這樣就能成功的返回資訊（具體結果不貼，隱私問題）

接下來嘗試一個需要驗證碼登陸的網站：
思路就是先把驗證碼下載到本地，檢視然後登陸（關於驗證碼識別，那又是一門學問了，能寫一本書）

（這裡有個問題，因為每次重新整理的驗證碼路徑是不同的，所以要先獲得驗證碼，在提交表單）

使用正則：

def getImg(html):
  reg = r'="/V.+"\s+id' 
  imglist = re.findall(imgre,html)
  return imglist[0]#分析原始碼，獲取驗證碼地址                Mahtml='http://www.pceggs.com'+
  getImg(html)[2:][:-5]
 print Mahtml

這樣就能得到驗證碼檔案地址，下載下來即可。其他地方和前面一樣‘

#coding=utf-8
import urllib2
import cookielib
import urllib
import re
PostUrl = "http://www.pceggs.com/"
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)# 將cookies繫結到  #一個opener cookie由cookielib自動管理txt_UserName='*****'
txt_PWD='*****'#由於該網站的驗證碼地址是隨機的，所以必須先獲得源
#碼，分析出驗證碼地址才可以
response = urllib2.urlopen(PostUrl)
html=response.read()
def getImg(html): 
reg = r'="/V.+"\s+id' 
imgre = re.compile(reg)
 imglist = re.findall(imgre,html) 
print Mahtml
#驗證碼下載#
urllib.urlretrieve(Mahtml,'yanma.jpg','wb')
#用openr訪問驗證碼地址,獲取
cookiepicture = opener.open(Mahtml).read()
# 用openr訪問驗證碼地址,獲取
cookielocal = open('image.gif', 'wb')
local.write(picture)local.close()# 儲存驗證碼到本地SecretCode = raw_input('輸入驗證碼： ')
# 開啟儲存的驗證碼圖片 輸入#
print SecretCode
postData = {'__VIEWSTATE': '/wEPDwUKMTI3ODYxNzg2OGQYAQUeX19Db250cm9sc1JlcXVpcmVQb3N0QmFja0tleV9fFgEFDExvZ2luX1N1Ym1pdHhnq1J+1JgPIoSYyL3EBi6sUrdm','__VIEWSTATEGENERATOR':'90059987','Head2$WithdrawCount':'4089800','txt_UserName': txt_UserName,'txt_PWD': txt_PWD,'txt_VerifyCode':SecretCode,'Login_Submit.x':'63','Login_Submit.y':'11','SMONEY':'ABC'}# 根據抓包資訊 構造表單
headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.8','Connection': 'keep-alive','Content-Type': 'application/x-www-form-urlencoded','User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36',}#
 根據抓包資訊 構造headers
request = urllib2.Request(PostUrl, data, headers)# 構造request請求
try: response = opener.open(request) 
result = response.read() 
print result # 列印登入後的頁面except urllib2.HTTPError,e: 
print e.code#登入成功後便可以利用該openr訪問其他需要登入才能訪
#的頁面
res = opener.open("http://www.pceggs.com/Gain/Gnmain.aspx")
resu = response.read()print resu

結果顯示成功

Python爬蟲----爬蟲入門（4）---urllib2 模擬登陸

開發環境，ubuntu 14.0.1自帶python 2.7.6 接下來要開始抓取需要登陸才能抓取的頁面：這裡先抓一個不需要驗證的網站：學校的官網：找到登陸框，輸入密碼賬號，登陸。（先開啟開發者工具）推薦谷歌和火狐瀏覽器： Network–>

Python爬蟲實例（四）網站模擬登陸

opener 運行 webkit zh-cn head window targe Coding 破解一、獲取一個有登錄信息的Cookie模擬登陸下面以人人網為例，首先使用自己的賬號和密碼在瀏覽器登錄，然後通過抓包拿到cookie，再將cookie放到請求之中發送請求即可

爬蟲開發python工具包介紹（4）

current edi 社區 cache outer json格式數據 exc max cloud 本文來自網易雲社區作者：王濤此處我們給出幾個常用的代碼例子，包括get,post(json,表單),帶證書訪問：Get 請求@gen.coroutine def fetch_

python爬蟲入門（五）Selenium模擬使用者操作

爬蟲(Spider)，反爬蟲(Anti-Spider)，反反爬蟲(Anti-Anti-Spider) 之間恢巨集壯闊的鬥爭... 小莫想要某站上所有的電影，寫了標準的爬蟲(基於HttpClient庫)，不斷地遍歷某站的電影列表頁面，根據 Html 分析電影名字存進自己的資料庫。這個站

運維學python之爬蟲高級篇（六）scrapy模擬登陸

markdown inux ins com 是否準備配置獲取圖片 con 上一篇介紹了如何爬取豆瓣TOP250的相關內容，今天我們來模擬登陸GitHub。 1 環境配置語言：Python 3.6.1 IDE： Pycharm 瀏覽器：firefox 抓包工具：fi

爬蟲基礎入門（一）

第三部分 tps 百度首頁控制 set 協議 debug AD 主機 1 URL含義 URL的格式由三部分組成： ①第一部分是協議(或稱為服務方式)。 ②第二部分是存有該資源的主機IP地址(有時也包括端口號)。 ③第三部分是主機資源的具體地址，如目錄和文件名等。 2 分

怎樣學好爬蟲的,選擇自己的程式碼編譯的IDE，爬蟲認知篇（4）

一個專業的程式猿，必須要有符合自己的IDE環境；這樣，辦公效率會提高了很多。作為一個小白來說，很有必要的。能選專業版本就不選社群版，因為什麼呢？以後啊，你是要拿這個吃飯的！！！！記

爬蟲框架開發（4）--- 專案實戰——>新浪滾動新聞資訊實時資料採集

要求：儲存文章的標題、作者、釋出時間、正文、正文中的圖片連結、文章連結、文章所屬分類根據網站的實時更新(週期1分鐘)進行採集時間格式儲存為"yyyy-mm-dd HH:MM:SS" 儲存到mysql資料庫程式碼實現如下：新浪滾動的爬蟲檔案： # spid

Python資料爬蟲學習筆記（19）Scrapy模擬登入實現豆瓣使用者資訊爬蟲

一、需求：在豆瓣官網中，使用Scrapy實現模擬登入，並爬取登入後的個人中心介面中的使用者名稱及日記資訊資料。二、實現思路： 1、關於使用者名稱與密碼以及其提交網址：觀察登入網頁的原始碼，注意到使用者名稱與密碼都使用不同name屬性的input來輸入

Python入門（4）

一、while迴圈有時候，你可能需要計算機來幫重複做一件事，這時就需要迴圈。 while condition: statements (else: statements ) 當condition條件成立時，就會進入迴圈，每次迴圈結束就會重新判斷cond

PYTHON多線程--（4）QUEUE對象

open any python多線程 list fbx taf svm vda python OPENSWANI%E6%96%B9%E6%89%93%E5%8D%B0 http://mp3.baidu.com/songlist/502720018?9oo6=C67F h

JDBC入門（4）--- 批處理

集合 for mysql connect 通過入門 code 這一匹配 1、Statement批處理　　當你有10條SQL語句要執行時，一次向服務器發送一條SQL語句，這樣做的效率上極差，處理的方案是使用批處理，即一次向服務發送多條SQL語句，然後由服務器一次性處理。

我的第一個python web開發框架（4）——數據庫結構設計與創建

數據結構描述分析器設置一個由於 logs 記錄開發框架　　小白做好前端html設計後，馬上開始進入數據庫結構設計步驟。　　　　在開始之前，小白回憶了一下老大在公司裏培訓時講過的數據庫設計解說：　　對於初學者來說，很多拿到原型時不知道怎麽設計數據表結

Python函數篇（4）之叠代器與生成器

依賴 true windows 想要 bject 多個介紹中文 linux系統中 1.文件操作的“b模式”(補充) 　　在上一篇文章中，我在最後一部分寫了文件處理的一些方法，但是覺得還是有必要再提一下如下的內容：　　像rb、wb、ab這種模式，是以字節的形式操作，需要

Python編程入門（一）

pythonPython編程入門（一）=========================================================================================概述：============================================

java入門（4）--流程控制

clas 程序生命 blog 括號 java入門語言註入 class 選擇程序如果只是逐條地順序執行，那程序的行為恐怕要簡單得多了，但也會失去大部分的強悍功能和精彩。正是“分支”打破了順序執行的呆板局面，給程序註入了真正的生命力。 java中的分支主要由選擇和

caffe的python接口學習（4）mnist實例手寫數字識別

數字 interval with lac EDA 變化 mode 指數 lB 以下主要是摘抄denny博文的內容，更多內容大家去看原作者吧　　一數據準備　　準備訓練集和測試集圖片的列表清單; 　　二導入caffe庫，設定文件路徑　　 # -*- coding: u

Python學習之路（4）——變量

TP width urn pass 分享圖片 comment port cin alex 1、聲明變量 1 2 3 4 #!/usr/bin/env python # -*- coding: utf-8 -*- name = "wupeiqi"

人工神經網絡入門（4） —— AFORGE.NET簡介

inpu 源代碼 double 庫文件 ive href 計算 super input 範例程序下載：http://files.cnblogs.com/gpcuster/ANN3.rar如果您有疑問，可以先參考 FAQ 如果您未找到滿意的答案，可以在下面留言：）0 目錄人工

SpringBoot 2.0入門（4）

熱部署 1.什麼是熱部署所謂的熱部署：比如專案的熱部署，就是在應用程式在不停止的情況下，實現新的部署 2.專案演示案例 @RestController @Slf4j public class IndexController { @Value("${itma}") pri

Python爬蟲----爬蟲入門（4）---urllib2 模擬登陸

開發環境，ubuntu 14.0.1自帶python 2.7.6

相關推薦