對github的爬取，涉及請求的分析，登入爬取，request中session物件的使用

阿新 • • 發佈：2019-01-12

其實github的爬取相對來說是比較簡單的，可以不用框架直接使用requests和BF就可以完成一個縱向的爬取。
代理工具：fiddler
首先說一下這次爬取的資料，是github上遞迴的爬取使用者主頁的資訊，包括博主和此博主主頁上最受歡迎的六個專案（Popular Repositories）專案的名稱，簡介，星數和轉載數。

在這裡插入圖片描述這是爬取的資訊。

接下來我們來分析github的爬取，從登陸到遞迴爬取的整個過程。

第一步：我們登陸試試，用fiddler擷取一下login頁面的post請求，分析一下登陸需要傳遞給主機的data。
首先我們到login頁面，輸入密碼賬號然後發出post請求
在這裡插入圖片描述

通過fidddler的擷取，我們獲得了post請求。如圖
在這裡插入圖片描述

如圖中，我們就有了post請求需要傳送給主機的資料，他們是：
commit ：Sign in
utf8 ：✓
authenticity_token ：36lBh69HcWi1QIS4DrgIwpXrT8KZ5QBuxZwrOP5upQPP+ARZFFQ8aljDFg4ZlOxoxPgbKmWHE7UV8tB7CUIxeg==
login ：username
password ：password

以上，我們知道除了使用者名稱和密碼，我們不知道的資料是“authenticity_token”，這個資料從哪裡來呢？你可以考慮是js動態計算出來的，但是好像沒有js檔案。其實我們首先應該考慮從login頁面中提取出來。那我們擷取login頁面，看一下從login響應體中是不是可以提取出想要的“authenticity_token”.
如圖，我們截取了login頁面，通過搜尋，找到了引數。
在這裡插入圖片描述

現在需要的只是把“authenticity_token”引數提取出來。

在貼出這一段程式碼之前，我們應該明白requests模組的session物件。session物件例項，是一個對話的例項，它可以跨請求保持cookie（在計算機網路相關知識中有隊session的詳細解釋）。也就是通過cookie傳送的所有請求都保持著登陸上去的cookies。接下來我們貼出這段的程式碼。

    def login(self, user_name, password):
        # 傳進必要的引數，然後登陸
        post_data = {
            "commit":"Sign in",
            "utf8":"✓",
            "authenticity_token":self.parse_loginPage(),
            "login":user_name,
            "password":password
        }

        logined_html = self.session.post(url=self.post_url, data=post_data, headers=self.logined_headers, verify=False)
        if logined_html.status_code == 200:
            dashboardHtml = self.session.get(url=self.logined_url, headers=self.login_headers, verify=False)
            self.parse_loginedHtml(dashboardHtml)
            # 函式用於解析登陸後的主頁，主頁上有你關注人的最新動態，通過這個為入口，進行遞迴查詢。

主頁：
在這裡插入圖片描述
圖示的方框中的動態版就是我們爬取的入口。
其url為：https://github.com/dashboard-feed
在其中提取出人名就可，然後我們就可以構造其他人的主頁連結，就可以進一步爬取了。
主頁中我們爬取的內容用方框框起來了。
在這裡插入圖片描述這樣，我們就完成的基本的爬取，至於**原始碼，在我的github上，**連結在此。
https://github.com/mikeyumingtao/PythonHouse/blob/master/githubSpider.py

對github的爬取，涉及請求的分析，登入爬取，request中session物件的使用

對github的爬取，涉及請求的分析，登入爬取，request中session物件的使用

Missing request captcha:post請求無法登陸，get請求就可以登入，最後發現是maxPostSize的引數設定問題

伺服器端用Servlet響應客戶端請求，Gson請求。可以返回多個數據庫中的資訊

java 傳送POST、GET請求時，獲取請求的頭資訊Set-Cookie，請求攜帶Cookie

iOS開發整合友盟，新浪微博登入授權失敗，responseCode等於5051

shiro登入驗證（登入跳轉到指定頁面，驗證碼驗證，不登出之前已登入使用者下，再次登入）

爬取虎嗅網，並對爬取數據進行分析

Python 爬取 B 站資料分析，宋智孝李光洙誰最受中國粉絲喜愛

今日頭條ajax技術內as ,cp，_cp_signature引數分析、破解及python爬取頻道資料

Mac下使用git對GitHub進行推送，拉取等操作

Python模擬登入豆瓣網，並爬取小組信息

DNS反射放大攻擊分析——DNS反射放大攻擊主要是利用DNS回復包比請求包大的特點，放大流量，偽造請求包的源IP地址為受害者IP，將應答包的流量引入受害的服務器

爬取校園新聞首頁的新聞的詳情，使用正則表達式，函數抽離

python小白也可以分分鐘爬取微博數據，並生成有個性的詞雲，你get到了嗎？

爬取網站時請求被拒絕？scrapy輕松解決請求頭設置！就是不講道理

爬蟲系列之鏈家的信息爬取及數據分析

Coinness分析：SEC拒絕ETF，對BTC價格影響有多大

根據properties配置檔案獲取裡面的鍵值對，jfinal原始碼分析

演算法 -- 猴子選大王的四種方法，並對其時間與記憶體消耗的分析和對比&PHP

IDEA 從GitHub上拉取的專案POM.xml 不能新增依賴，報錯：Non-resolvable parent POM for com.cdc:blinddate:0.0.1-SNAPSHOT:

對github的爬取，涉及請求的分析，登入爬取，request中session物件的使用

相關推薦