Python爬蟲學習筆記之模擬登陸並爬去GitHub

阿新 • • 發佈：2018-08-22

過程 eight res 開發者工具 @value clas 之前自己 8.0

(1)環境準備:

請確保已經安裝了requests和lxml庫

(2)分析登陸過程:

首先要分析登陸的過程，需要探究後臺的登陸請求是怎樣發送的，登陸之後又有怎樣的處理過程。

如果已經登陸GitHub，則需要先退出登陸，同時清除Cookies

打開GitHub的登陸頁面，鏈接為https://github.com/login，輸入GitHub的用戶名和密碼，打開開發者工具

，將Preserver Log選項勾選上，這表示持續日誌，如下圖所示

點擊登錄按鈕，這時便會看到開發者工具下方顯示了各個請求過程，如下圖所示：

點擊session請求，進入其詳情，如下圖所示：

可以看到請求的URL為https://www.github.com/session,請求方式為POST。再往下看，我們觀察到他的Form Data和Headers這兩部分內容，

如下圖所示：

Headers裏面包含了Cookies，Host，Origin，Refer，User-Agent等信息。Form Data包含了5個字段，commit是固定的字符串Sign in，utf8

是一個勾選字符，authenticity_token較長，其初步判斷是一個Base64加密的字符串，login是登陸的用戶名，password是登陸的密碼。

綜上所述，我們現在無法直接構造的內容有Cookies和authenticity_token。下面我們再來探尋一下這部分內容如何獲取。

在登陸之前我們會訪問到一個登陸頁面，此頁面是通過GET形式訪問的。輸入用戶名和密碼，點擊登錄按鈕，瀏覽器發送這兩部分信息，也就是

說Cookies和authenticity_token一定在訪問扥估頁面時候設置的。

這時在退出登陸，回到登錄頁，同時清除Cookies，重新訪問登錄頁，截獲發生的請求，如下圖所示：

訪問登陸頁面的請求如上，Response Headers有一個Set-Cookie字段。這就是設置Cookies的過程。

另外，我們發現Response Headers沒有和authenticity_token相關的信息，所以可能authenticity_token還隱藏在其他的地方或者是計算出來的

。我們再從網頁的源碼探尋，搜索相關字段，發現源代碼裏面還隱藏著此信息，他是一個隱藏式表單元素，如下圖所示：

現在我們已經獲取到網頁所有信息，接下來讓我們實現模擬登陸

(3)代碼如下:

 1 import requests
 2 from lxml import etree
 3 
 4 class Login(object):
 5     def __init__(self):
 6         self.headers = {
 7             ‘Refer‘: ‘https://github.com‘,
 8             ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
 9                           ‘Chrome/68.0.3440.75 Safari/537.36‘,
10             ‘Host‘: ‘github.com‘
11         }
12         self.login_url = ‘https://github.com/login‘
13         self.post_url = ‘https://github.com/session‘
14         self.logined_url = ‘https://github.com/settings/profile‘
15         self.session = requests.Session()   # 此函數可以幫助我們維持一個會話，而且可以自動處理cookies，我們不用再去擔心cookies的問題
16 
17     def token(self):
18         response = self.session.get(self.login_url, headers=self.headers)  # 訪問GitHub的登錄頁面
19         selector = etree.HTML(response.text)
20         token = selector.xpath(‘//div//input[2]/@value‘)[0]   # 解析出登陸所需的authenticity_token信息
21         return token
22 
23     def login(self, email, password):
24         post_data = {
25             ‘commit‘: ‘Sign in‘,
26             ‘utf-8‘: ‘?‘,
27             ‘authenticity_token‘: self.token(),
28             ‘login‘: email,
29             ‘password‘: password
30         }
31         response = self.session.post(self.post_url, data=post_data, headers=self.headers)
32         if response.status_code == 200:
33             self.dynamics(response.text)
34 
35         response = self.session.get(self.logined_url, headers=self.headers)
36         if response.status_code == 200:
37             self.profile(response.text)
38 
39     def dynamics(self, html):  # 使用此方法提取所有動態信息
40         selector = etree.HTML(html)
41         dynamics = selector.xpath(‘//div[contains(@class, "news")]//div[contains(@class, "alert")]‘)
42         for item in dynamics:
43             dynamics = ‘ ‘.join(item.xpath(‘.//div[@class="title"]//text()‘)).strip()
44             print(dynamics)
45 
46     def profile(self, html):  # 使用此方法提取個人的昵稱和綁定的郵箱
47         selector = etree.HTML(html)
48         name = selector.xpath(‘//input[@id="user_profile_name"]/@value‘)[0]
49         email = selector.xpath(‘//select[@id="user_profile_email"]/option[@value!=""]/text()‘)
50         print(name, email)
51 
52 if __name__ == "__main__":
53     login = Login()
54     login.login(email=‘‘, password=‘‘)  # 此處填自己的

Python爬蟲學習筆記之模擬登陸並爬去GitHub

過程 eight res 開發者工具 @value clas 之前自己 8.0 (1)環境準備: 請確保已經安裝了requests和lxml庫 (2)分析登陸過程: 首先要分析登陸的過程，需要探究後臺的登陸請求是怎樣發送的，登陸之後又有怎樣的

Python爬蟲學習筆記之微信宮格驗證碼的識別(存在問題)

依次返回結果 ptc 接下來 clas 軌跡 self top http 本節我們將介紹新浪微博宮格驗證碼的識別。微博宮格驗證碼是一種新型交互式驗證碼，每個宮格之間會有一條指示連線，指示了應該的滑動軌跡。我們要按照滑動軌跡依次從起始宮格滑動到終止宮格，才可以完成驗證，

python爬蟲學習筆記-scrapy框架之start_url

在使用命令列建立scrapy專案後，會發現在spider.py檔案內會生成這樣的程式碼： name = 'quotes' allowed_domains = ['quotes.toscrape.com'] start_urls = ['http://quotes.toscrape.com

python爬蟲學習筆記（二）——基礎篇之爬蟲基本原理

包括 for .py 非關系型原理 sof 301跳轉 close bsp 1.什麽是爬蟲？　　請求網站並提取數據的自動化程序 2.爬蟲基本流程　2.1發起請求　　通過HTTP庫向目標站點發起請求，即發起一個Request，請求可以包含額外的headers等信息，等

python自動化學習筆記之DAY15

als iou inpu 設置 insert return 函數調用雙擊事件 over JavaScript基礎 1、function對象函數定義： function 函數名（參數）{ <BR> 函數體；　　return 返回值； } 可以使

python自動化學習筆記之DAY19

primary queryset imp 正向查詢 tom 使用 mov orm 復雜 Django-model基礎表的創建（模型建立）例1： from django.db import models #書籍 class Book(models.Model):

python自動化學習筆記之DAY21

form 保存 username 用戶 python ssi key 需要用戶信息 cookie 1、cookie與session cookie出現原因：由於HTTP協議無法保持狀態，但是在認證的環境裏面，需要保持狀態，因此產生了cookie cookie工作原理：由服務

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

Python爬蟲學習筆記（二）——requests庫的使用

pip 安裝 .text rep 瀏覽器 ror clas ade 學習筆記準備工作 requests庫不是python自帶的庫，可以用pip安裝。在使用時導入requests即可。基本用法 GET請求 r = requests.get(url) print(r.tex

Python爬蟲學習筆記（三）——正則表達式

斜杠這一 seh 爬蟲 class 學習常用方法部分介紹介紹正則表達式是一種處理字符串的強大工具，能實現字符串的檢索、替換、匹配驗證等。在爬蟲中，正則表達式主要用於從HTML裏提取所需要的信息常用的匹配規則模式描述 \w 匹配字母、數字及下劃

Python爬蟲學習筆記（七）——智高考數據爬取

pid items bubuko strong eai res har href name 介紹智高考是一個高考誌願網站，也是基於Ajax的。高中的時候我在wyz大神的幫忙下，嘗試過爬取信息來為填誌願做準備。但是當時沒有系統學習過爬蟲，幾乎都是靠大神帶飛，因此今天再次嘗試

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

【Python爬蟲學習筆記8-2】MongoDB數據庫操作詳解

參考資料 adding ocl 切換 username 詳解 top .com min 上一篇學習筆記8-1中介紹了MySQL和MongoDB的安裝、啟動和配置，本節我們接著學習有關MongoDB的一些概念、基本操作和在python中的使用。 MongoDB常用概念為更好

【Python爬蟲學習筆記10】多線程中的生產者消費者模式

其中因此問題共享 and 生產者消費者模式共享問題由於接下來在多線程編程中，最經典的模式是生產者消費者模式。其中，生產者是專門用來生產數據的線程，它把數據存放在一個中間變量中；而消費者則從這個中間變量取出數據進行消費。由於生產者和消費者共享中間變量，這些變量大

Python 3 學習筆記之——標準庫概述

sun 教程 glob 更改 birt 同時 sys 系統命令 www 1. 操作系統接口 os 模塊提供了一些與操作系統相關聯的函數。 >>> os.getcwd() # 獲取當前工作目錄 ‘/home/senius‘ >

Python 3 學習筆記之——錯誤和異常

參考箭頭 cto last image 直接 cep 分享一行 1. 語法錯誤 Python 的語法錯誤被稱為解析錯，語法分析器會指出出錯的代碼行，並且在最先找到的錯誤的位置標記一個小小的箭頭。 >>> while True File "&l

Python爬蟲學習筆記總結(一)

〇. python 基礎先放上python 3 的官方文件:https://docs.python.org/3/ (看文件是個好習慣) 關於python 3 基礎語法方面的東西,網上有很多,大家可以自行查詢. 一. 最簡單的爬取程式爬取百度首頁原始碼:

python爬蟲學習筆記一：爬蟲學習概覽與Requests庫的安裝與使用

python網路爬蟲與資訊提取學習目錄： the website is the API Requests：自動爬取HTML頁面自動網路請求提交 robots.txt：網路爬蟲排除標準 Beautiful Soup：解析HTML頁面正則表示式詳解，提取頁面關鍵資訊Re

JUC學習筆記之模擬CAS演算法——03

/* * 模擬 CAS 演算法 */ public class TestCompareAndSwap { public static void main(String[] args) { &nbs

python爬蟲學習筆記-urllib的使用

學習爬蟲，最基本的操作即為模擬瀏覽器向伺服器發出請求，python內建了一個名為urllib的內建HTTP請求庫，有了它，我們只需要關心請求的連結是什麼，需要傳遞什麼引數，以及設定請求頭等其他資訊即可。這樣，我們就不用深入底層的連線具體是怎樣傳輸和通訊（當然，這是站在巨人的肩膀上）。urll

Python爬蟲學習筆記之模擬登陸並爬去GitHub

相關推薦