100%教會爬取全國保險業務員微訊號碼和拉勾網招聘資料
阿新 • • 發佈:2019-02-10
下方兩幅圖是最近爬取某保險網站和拉勾的招聘資料,大家隨意感受一下
截圖部分保險業務員微信二維碼
截圖部分拉勾網爬取資訊
本文主要講爬取某保險網站所有賣保險的人的微訊號,個人網站,所在地區、所屬保險公司等資訊,程式碼已上傳到QQ群(627714866)
開發環境:
烏班圖、pycharm、mysql、redis、mongodb
爬蟲技術:
requests、redis加密對資料去重、xpath、os模組、儲存csv、mysql、面向物件寫法
廢話不多說,直接上程式碼
1、pymongo、pymysql、redis, hashlib用於對redis欄位加密
2、建立一個類,並初始化資料(網站是post請求,需要帶data)
headers、post請求資料、初始化csv檔案、建立資料庫連線物件(具體技術不明白的請查閱相關資料)
3、最大重複請求3次,增加程式健壯性
4、獲取資料列表
(具體提取方式請根據post請求URL檢視前端程式碼)
5、返回con_list列表、下一頁URL和data資料
(注意:所有URL都一樣,不一樣的是傳的data資料,主要還是構造data資料)
6、獲取展業證號
因為展業證號對應的詳情頁有多種頁面結構,所以需要根據頁面中特有的資訊做一些判斷,選擇合適的提取方式提取
7、構造增量式爬蟲
利用hashlib對提取的名字資訊生成雜湊加密指紋,並利用redis的集合資料型別,儲存加密欄位,如果該加密欄位能sadd儲存到redis,則返回值是1,如果不能sadd儲存,則返回值是0(作用:實現根據姓名欄位判斷到資料庫是執行更新操作還是增加操作,也即增量含義)
8、儲存mysql
根據res返回值,是1還是0,對應執行增加insert操作和更新update操作
同時分表儲存,方式有點lowb,判斷欄位而已,
9、儲存mongodb
10、儲存csv和構造儲存二維碼圖片命名格式
11、啟動程式
遍歷兩個條件,公司名稱和信用等級,只做示意,公司取兩個,資訊用等級取2個,next_url為初始URL
後期爬取拉勾資料程式碼也已經實現,會繼續更新
本文程式碼和一些python教程已經上傳到QQ群(627714866),有興趣的同學可以加群下載,本文只限於技術交流,請勿用於商業用途
python爬蟲人工智慧大資料公眾號
本公眾號長期提供各種免費視訊學習資源,歡迎與作者相互探討學習
公眾號回覆“ 資料”獲取500GB相關視訊教程,部分教程分類和截圖如下:
python、django 、flask、資料分析、爬蟲、運維、大資料、量化金融、機器學習、深度學習、自然語言處理、人工智慧、電子書
0、python入門教程1、Django教學網站專案實戰視訊,帶xadmin後臺和原始碼:
2、Flask專案實戰視訊和原始碼:
3、爬蟲專案實戰視訊和原始碼:
4、資料分析專案實戰和原始碼:
5、全部資料