考研大資料爬取與分析工具V0.0.0 (發行日期2018.09.02)
產品下載:
考研大資料爬取與分析工具V0.0.0(本版本爬取與分析研招網18年的13.82萬個招生詳情網頁無問題,後續19、20等的招生資料爬取工作我會跟進)下載地址:
考研大資料分析報表V0.0.0(基於研招網18年的13.82萬個招生詳情網頁,18年的180個學科類別(或專業領域)的資料都進行了分析,並且每個學科類別都生成了一個Excel工作簿檔案)
有問題請郵件[email protected],轉載資料和軟體請註明出處。
產品介紹:
第一階段:爬取資訊。
程式全自動從研招網上爬取當年每一個招生詳情網頁的資訊。
我爬取的時候研招網上是18年的招生資料,程式內收錄了180個學科類別(或專業領域)
所有已收錄門類的爬取招生詳情網頁的資訊,並將這些網頁儲存在本地。
本程式可以實現全自動爬取從研招網上爬取招生詳情網頁的資訊,並將這些網頁儲存在本地。
第二階段:資料分析。
分析過程我就不贅述了,下面只介紹一下分析後的每一個Excel工作簿中的每一個工作表的含義。
先介紹幾個比較實用的工作表。
Sheet 2_2 中按照學校的統招總人數從多到少排列的資訊的,因此你可以通過Sheet2-2這個表格看出本學科類別(或專業領域)哪個學校統招人數最多。
Sheet 3-3(概要工作表):
計算出考試政治時某科目的招生機構總數,並以這些招生機構加起來的總統招人數數量從多到少排序資訊。
外語、業務課一、業務課二也按照這樣處理,通過這個表格可以看出備考哪個科目將來的選擇面比較寬。
另外你也可以手動再Sheet 3這個表格中搜索一下(Ctrl + F)看考某一科的都有哪些學校。
Sheet 3(爬取每一個學校的每一個方向的招生頁面的原始資料):
學校名、院系所名、專業名、研究方向名、政治、外語、數學、專業課、政治詳情、外語詳情、數學詳情、專業課詳情、指導老師、備註、詳情連結、學校連結
下面是所有工作表的介紹:
每一個學科類別的Excel工作簿中儲存的工作表為:
Sheet 1(每一個學校招生頁面的原始資料):
學校名、院系所、專業、研究方向、學習方式、擬招生人數(原始資訊)、擬招收總人數、推免人數、統招人數、統招人數型別、詳情檢視連結、學校連結為一條資訊
Sheet 2(根據Sheet 1處理後的資料,可以檢視某校的院系所總數、專業總數、研究方向總數、擬招收總人數、推免總人數、統招總人數):
學校名、院系所數、專業數、研究方向數、擬招收總人數、推免人數、統招人數、學校連結、所在頁碼、位置序號為一條資訊
Sheet 2_2 (資料與Sheet2一樣,不過排序方式是按照學校的統招總人數從多到少排列的):
學校名、院系所數、專業數、研究方向數、擬招收總人數、推免人數、統招人數、學校連結、所在頁碼、位置序號
Sheet 2_3(概要工作表):
本學科類別的招生機構總數、招生院系總數、專業總數、研究方向總數、擬招收人數總數、推免人數總數、統招人數總數,統招比重(統招生人數/擬招收總人數)
Sheet 3(爬取每一個學校的每一個方向的招生頁面的原始資料):
學校名、院系所名、專業名、研究方向名、政治、外語、數學、專業課、政治詳情、外語詳情、數學詳情、專業課詳情、指導老師、備註、詳情連結、學校連結
Sheet 3-2(概要工作表):
計算出政治有多少科目。
外語、業務課一、業務課二也按照這樣處理。
將要完成開發的資料處理任務:
Sheet 3-3(概要工作表):
計算出考試政治時某科目的招生機構總數及對應的機構名列表,並以這些招生機構加起來的總統招人數數量從多到少排序資訊。
外語、業務課一、業務課二也按照這樣處理。
大資料彙總工作簿:
Sheet 1(以擬招收總人數排序):
每一個學科類別招生擬招收總數各是多少。
Sheet 2(以統招生總人數排序):
每一個學科類別招生擬招收總數各是多少。
Sheet 2(以統招生比重排序):
每一個學科類別招生擬招收總數各是多少。