某招聘網資訊統計視覺化

阿新 • • 發佈：2019-01-09

0x00 前言

資料截至：2016.02.23

你應該猜到是哪個網站了，用python3寫了個多執行緒（非同步也不錯）+多代理爬蟲，大致實現是在執行中不斷往資料庫加入新代理，在獲取中把無效代理去掉及將任務ID添加回佇列，最後剩下穩定的代理迴圈使用，也要限制一下每個代理的訪問頻率，這樣可突破反爬蟲機制，資料庫用mysql(資料量小，感覺用什麼沒多大關係)，抓取了招聘公司+招聘資訊（含崗位需求），其實也就想看看一些資訊彙總資料！

有效資訊比

公司資訊：71488/105958
招聘資訊：813023/1445026

0x01 資料處理

按首頁分類及工作年限分組統計最低平均、最高平均及兩者平均

抓取分類

使用urllib.reuquest抓取後用BeautifulSoup解析

html = rullib.request.urlopen(url).read().decode('utf-8')
soup = BeautifulSoup(html, 'lxml')

然後解析為樹形結構資料，類似如下

技術
 - 後端開發
 - - Java
 - - Python
 - - PHP
 - - .NET
 - - C#
 - - C++
······
 - - Shell
 - - 後端開發其它
 - 移動開發
 - - HTML5
 - - Android
 - - iOS
 
 - - WP
 - - 移動開發其它
 - 前端開發
 - - web前端
 - - Flash
······

這裡取最後一層進行like匹配，匹配之前得處理以下順序，比如C在C++前，匹配時C++就會歸類到C裡(like ‘%C%’)，所以需將長度短的放後邊，排序一下（上面有兩個HTML5（前端開發和移動開發）及大小寫區分沒有處理，也可以試試按長度）

for i in range(len(menu)):
    for j in range(len(menu)):
        if menu[j] in menu[i]:
            menu[i], menu[j] = menu 
[j], menu[i]

分組統計

排完後用python迴圈拼接成SQL語句放資料庫查詢

CASE WHEN (`title` LIKE "%JavaScript%") THEN "JavaScript"
     ······
     WHEN (`title` LIKE "%副總裁%") THEN "副總裁"
     ELSE '其他'
END AS "title"

工作經驗類似，也用CASE處理以下，有些記錄欄位不規範，比如會出現1-3年、1-3 年這種情況

CASE WHEN (`seniority` LIKE "%應屆畢業生%") THEN "應屆畢業生"
     WHEN (`seniority` LIKE "%1年以下%") THEN "1年以下"
     WHEN (`seniority` LIKE "%1-3%") THEN "1-3年"
     WHEN (`seniority` LIKE "%3-5%") THEN "3-5年"
     WHEN (`seniority` LIKE "%5-10%") THEN "5-10年"
     WHEN (`seniority` LIKE "%10年以上%") THEN "10年以上"
     ELSE "經驗不限"
END AS "seniority"

然後按這兩個進行分組平均統計薪資（ct字典是記錄數量）

這裡寫圖片描述

資料整合

最後把資料與前邊的分類連線到一起，形成的json資料如下

這裡寫圖片描述

因為還不是樹形結構，還需要使用d3js.nest()來處理（因為我嫌麻煩，就按一條一條記錄封裝扔前端處理）

0x02 資料視覺化

d3js視覺化除了能放大縮小之外，還有個好處是可以使用CTRL+F快速搜尋定位

平均薪資

有了樹形json，可以d3官方demo直接傳入就可以了（資料有點量大，不然可以精確到城市整個大圖），經驗後的數量是統計的記錄數

這裡寫圖片描述

生成影象1280x96000尺寸剛合適，還可以玩玩其他姿勢，比如打包圖、圓形圖等

城市（公司）TOP 10

這裡寫圖片描述

融資比例

這裡寫圖片描述

公司規模

這裡寫圖片描述

其他

其他的還可以分析下走向、各職位關鍵字頻率等。。。

某招聘網資訊統計視覺化

0x00 前言

有效資訊比

0x01 資料處理

抓取分類

分組統計

資料整合

0x02 資料視覺化

平均薪資

城市（公司）TOP 10

融資比例

公司規模

其他

某招聘網資訊統計視覺化

網路爬蟲之scrapy爬取某招聘網手機APP釋出資訊

點雲的曲面法向量估計（此例輸出點雲法向資訊,沒視覺化）(2018.10.15)

Python爬取攜程旅遊行程資訊+GIS視覺化

【滲透實戰】對某招聘網旁站注入

地理位置資訊資料視覺化(DVisualMap)

入坑爬蟲(六)某招聘網站資訊採集

Python爬蟲【實戰篇】scrapy 框架爬取某招聘網存入mongodb

dataframe 資料統計視覺化---spark scala 應用

懸賞資料控！2018第一屆網易有數視覺化大賽火熱開啟！

利用Eclipse-Python簡單爬取京東商城書籍資訊進行視覺化

ggstatsplot繪圖|統計+視覺化，學術科研神器

基於30多萬條招聘資訊的熱門城市、地域、薪資、人才要求的R語言資料視覺化分析

基於某知名招聘網站的上海財務崗位資料分析（含excel視覺化）

視覺化分析存入mongodb騰訊招聘資訊

【資訊視覺化】網路輿情監控系統創意視覺化設計

【資訊視覺化】使用D3實現的中科院院士姓氏首字母分佈視覺化

MOOC課程資訊D3.js動態視覺化

Echarts 地理資訊視覺化：基於地圖顯示座標點資訊

《wiki官網教程》 4 視覺化與除錯工具

某招聘網資訊統計視覺化

0x00 前言

有效資訊比

0x01 資料處理

抓取分類

分組統計

資料整合

0x02 資料視覺化

平均薪資

城市（公司）TOP 10

融資比例

公司規模

其他

相關推薦