1. 程式人生 > >100%教會爬取全國保險業務員微訊號碼和拉勾網招聘資料

100%教會爬取全國保險業務員微訊號碼和拉勾網招聘資料

下方兩幅圖是最近爬取某保險網站和拉勾的招聘資料,大家隨意感受一下

截圖部分保險業務員微信二維碼


截圖部分拉勾網爬取資訊


本文主要講爬取某保險網站所有賣保險的人的微訊號,個人網站,所在地區、所屬保險公司等資訊,程式碼已上傳到QQ群(627714866

開發環境:

烏班圖、pycharm、mysql、redis、mongodb

爬蟲技術:

requests、redis加密對資料去重、xpath、os模組、儲存csv、mysql、面向物件寫法

廢話不多說,直接上程式碼

1、pymongo、pymysql、redis, hashlib用於對redis欄位加密


2、建立一個類,並初始化資料(網站是post請求,需要帶data)

headers、post請求資料、初始化csv檔案、建立資料庫連線物件(具體技術不明白的請查閱相關資料)


3、最大重複請求3次,增加程式健壯性


4、獲取資料列表

(具體提取方式請根據post請求URL檢視前端程式碼)


5、返回con_list列表、下一頁URL和data資料

(注意:所有URL都一樣,不一樣的是傳的data資料,主要還是構造data資料)


6、獲取展業證號

因為展業證號對應的詳情頁有多種頁面結構,所以需要根據頁面中特有的資訊做一些判斷,選擇合適的提取方式提取


7、構造增量式爬蟲

利用hashlib對提取的名字資訊生成雜湊加密指紋,並利用redis的集合資料型別,儲存加密欄位,如果該加密欄位能sadd儲存到redis,則返回值是1,如果不能sadd儲存,則返回值是0(作用:實現根據姓名欄位判斷到資料庫是執行更新操作還是增加操作,也即增量含義)


8、儲存mysql

根據res返回值,是1還是0,對應執行增加insert操作和更新update操作

同時分表儲存,方式有點lowb,判斷欄位而已,



9、儲存mongodb


10、儲存csv和構造儲存二維碼圖片命名格式


11、啟動程式

遍歷兩個條件,公司名稱和信用等級,只做示意,公司取兩個,資訊用等級取2個,next_url為初始URL


後期爬取拉勾資料程式碼也已經實現,會繼續更新

本文程式碼和一些python教程已經上傳到QQ群(627714866),有興趣的同學可以加群下載,本文只限於技術交流,請勿用於商業用途


python爬蟲人工智慧大資料公眾號


本公眾號長期提供各種免費視訊學習資源,歡迎與作者相互探討學習

公眾號回覆“

資料”獲取500GB相關視訊教程,部分教程分類和截圖如下:

python、django 、flask、資料分析、爬蟲、運維、大資料、量化金融、機器學習、深度學習、自然語言處理、人工智慧、電子書

0、python入門教程


1、Django教學網站專案實戰視訊,帶xadmin後臺和原始碼:


2、Flask專案實戰視訊和原始碼:


3、爬蟲專案實戰視訊和原始碼:


4、資料分析專案實戰和原始碼:


5、全部資料