拉勾網爬取全國python職位並數據分析薪資，工作經驗，學歷等信息

阿新 • • 發佈：2018-07-30

add with color palette 谷歌瀏覽器 tor item imp 文件中

首先前往拉勾網“爬蟲”職位相關頁面
確定網頁的加載方式是JavaScript加載
通過谷歌瀏覽器開發者工具分析和尋找網頁的真實請求，確定真實數據在position.Ajax開頭的鏈接裏，請求方式是POST
使用requests的post方法獲取數據，發現並沒有返回想要的數據，說明需要加上headers和每隔多長時間爬取
我們可以看到拉勾網列表頁的信息一般js加載的都在xhr和js中，通過發送ajax加載POST請求，獲取頁面信息。
這個是ajax的頭信息，通過Form Data中的的信息獲取頁面
下面是scrapy爬蟲的代碼部分

 1 import scrapy
 2 import json
 
 3 from lagou.items import LagouItem
 4 class LagoupositionSpider(scrapy.Spider):
 5     name = ‘lagouposition‘
 6     allowed_domains = [‘lagou.com‘]
 7     kd = input(‘請輸入你要搜索的職位信息:‘)
 8     ct =input(‘請輸入要搜索的城市信息‘)
 9     page=1
10     start_urls = ["https://www.lagou.com/jobs/list_"+str(kd)+"&city= 
"+str(ct)]
11     headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
12              ‘Referer‘: ‘https://www.lagou.com/jobs/list_‘+str(kd)+‘?labelWords=&fromSearch=true&suginput=‘,
13              ‘Cookie‘:‘ _ga=GA1.2.1036647455.1532143907; user_trace_token=20180721113217-aacd6291-8c96-11e8-a020-525400f775ce; LGUID=20180721113217-aacd667e-8c96-11e8-a020-525400f775ce; index_location_city=%E5%8C%97%E4%BA%AC; _gid=GA1.2.1320510576.1532272161; WEBTJ-ID=20180723084204-164c4960832159-09bf89fcd2732e-5e442e19-1049088-164c496083348; JSESSIONID=ABAAABAABEEAAJAC7D58B57D1CAE4616ED47AACF945615E; _gat=1; LGSID=20180723203627-04b27de6-8e75-11e8-9ee6-5254005c3644; PRE_UTM=; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DYhfCtaCVlOHCdncJxMCMMS3PB1wGlwfw9Yt2c_FXqgu%26wd%3D%26eqid%3D8f013ed00002f4c7000000035b55cbc4; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1532306722,1532306725,1532306732,1532349358; SEARCH_ID=cdd7822cf3e2429fbc654720657d5873; LGRID=20180723203743-3221dec8-8e75-11e8-a35a-525400f775ce; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1532349434; TG-TRACK-CODE=search_code 
‘
14              }
15 
16 
17     def parse(self, response):
18         with open(‘lagou.html‘,‘w‘) as f:
19             f.write(response.text)
20         url="https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"
21         formdata={‘first‘:‘true‘,‘kd‘:str(self.kd),‘pn‘:‘1‘,‘city‘:str(self.ct)}
22         yield scrapy.FormRequest(url,formdata=formdata,callback=self.parse_detail,headers=self.headers)
23 
24     def parse_detail(self,response):
25         text=json.loads(response.text)
26         res=[]
27         try:
28             res = text["content"]["positionResult"]["result"]
29             print(res)
30         except:
31             pass
32         if len(res)>0:
33             item = LagouItem()
34             for position in res:
35                 try:
36                     item[‘title‘]=position[‘positionName‘]
37                     item[‘education‘]=position[‘education‘]
38                     item[‘company‘]=position[‘companyFullName‘]
39                     item[‘experience‘]=position[‘workYear‘]
40                     item[‘location‘]=position[‘city‘]
41                     item[‘salary‘] = position[‘salary‘]
42                     print(item)
43                 except:
44                     pass
45                 yield item
46             self.page+=1
47             url=‘https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false
48             formdata={‘first‘:‘false‘,‘kd‘:str(self.kd),‘pn‘:str(self.page),‘city‘:str(self.ct)}
49             print(‘===========================‘,formdata)
50             yield scrapy.FormRequest(url, callback=self.parse_detail, formdata=formdata,headers=self.headers)
51         else:
52             print("爬取結束！")

註意拉鉤網有反爬措施，我們在Formreqest提交POST請求消息必須攜帶kd等鍵值對，在setting中也許設置

 1 DOWNLOAD_DELAY = 20
 2 #設置爬取時間
 3 ROBOTSTXT_OBEY = False
 4 #是否遵循發爬蟲協議
 5 DEFAULT_REQUEST_HEADERS = {
 6     ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
 7     ‘Accept-Language‘: ‘zh-CN,zh;q=0.8‘,
 8     ‘Content-Type‘: ‘application/x-www-form-urlencoded; charset=UTF-8‘,
 9     ‘Host‘: ‘www.lagou.com‘,
10     ‘Origin‘: ‘https://www.lagou.com‘,
11     ‘Referer‘: ‘https://www.lagou.com/jobs‘,
12     ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36‘,
13     ‘X-Anit-Forge-Code‘: ‘0‘,
14     ‘X-Anit-Forge-Token‘: ‘None‘,
15     ‘X-Requested-With‘: ‘XMLHttpRequest‘
16 }
17 #請求頭信息headers

接下來就是在items中設置爬取信息的字段

 1 import scrapy
 2 
 3 
 4 class LagouItem(scrapy.Item):
 5     # define the fields for your item here like:
 6     # name = scrapy.Field()
 7     # pass
 8 
 9     education= scrapy.Field()
10     company= scrapy.Field()
11     experience= scrapy.Field()
12     location= scrapy.Field()
13     salary= scrapy.Field()
14     title= scrapy.Field()

在Pipeline.py文件中設置保存爬取文件的格式等

 1 import json
 2 class LagouPipeline(object):
 3     def open_spider(self,spider):
 4         self.file=open(‘pythonposition.json‘,‘w‘,encoding=‘utf-8‘)
 5     def process_item(self, item, spider):
 6         python_dict=dict(item)
 7         content=json.dumps(python_dict,ensure_ascii=False)+‘\n‘
 8         self.file.write(content)
 9         return item
10     def close_spider(self,spider):
11         self.file.close()

註意一定要把setting中的ITEM_PIPELINES解註釋，接下來就是跑起我們的項目，通過input輸入想要爬取的職位和城市，

技術分享圖片

上面就是爬取到的信息總共是855條招聘消息，接下來就是用jumpter-notebook打開爬取到的csv文件用pandas,numpy,和mupltlib進行分析

1 import pandas as pd
2 import numpy as np
3 import seaborn as sns
4 lagou=pd.read_csv(‘./examples/lagou.csv‘)
5 lagou.info()
6 #查看缺失值情況

技術分享圖片

通過讀取文件並顯示出855條招聘信息是否有缺失值

1 city=lagou[‘location‘]
2 city=pd.DataFrame(city.unique())
3 city

通過上面可以看到招聘python職位的城市，總共有38城市

 1 education=lagou[‘education‘]
 2 education=pd.DataFrame(education.unique())
 3 lagou[‘education‘] = lagou[‘education‘].replace(‘不限‘,‘unlimited‘)
 4 lagou[‘education‘] = lagou[‘education‘].replace(‘大專‘,‘junior‘)
 5 lagou[‘education‘] = lagou[‘education‘].replace(‘本科‘,‘regular‘)
 6 lagou[‘education‘] = lagou[‘education‘].replace(‘碩士‘,‘master‘)
 7 lagou[‘education‘] = lagou[‘education‘].replace(‘博士‘,‘doctor‘)
 8 #seaborn不支持中文需將對應的中文替換
 9 import seaborn as sns
10 sns.set_style(‘whitegrid‘)
11 sns.countplot(x=‘education‘,data=lagou,palette=‘Greens_d‘)

技術分享圖片

通過上圖可以看到大多數的Python職位招聘還是本科學歷為主

 1 experience=lagou[‘experience‘]
 2 experience=pd.DataFrame(experience.unique())
 3 lagou[‘experience‘] = lagou[‘experience‘].replace(‘不限‘,‘unlimited‘)
 4 lagou[‘experience‘] = lagou[‘experience‘].replace(‘3-5年‘,‘3-5‘)
 5 lagou[‘experience‘] = lagou[‘experience‘].replace(‘1-3年‘,‘1-3‘)
 6 lagou[‘experience‘] = lagou[‘experience‘].replace(‘5-10年‘,‘5-10‘)
 7 lagou[‘experience‘] = lagou[‘experience‘].replace(‘1年以下‘,‘<1‘)
 8 lagou[‘experience‘] = lagou[‘experience‘].replace(‘應屆畢業生‘,‘intern‘)
 9 experience
10 sns.countplot(x="experience", data=lagou,palette="Blues_d")

技術分享圖片

上圖是招聘的工作經驗的人數分布圖，可以看到3-5年的Python工程師比較搶手，其次就是1-3年工作經驗的

 1 import matplotlib.pyplot as plt
 2 %matplotlib inline
 3 f, ax1= plt.subplots(figsize=(20,20))
 4 sns.countplot(y=‘salary‘, data=lagou, ax=ax1)
 5 ax1.set_title(‘Python salary distribute ‘,fontsize=15)
 6 #薪資分布
 7 ax1.set_xlabel(‘salary‘)
 8 #薪資
 9 ax1.set_ylabel(‘level‘)             
10 plt.show()

同過下圖可以看到拉勾網上的pyhong工程師薪資待遇，其中待遇重要分布在10-40K之間，其中給出15-30K工資待遇的企業最多

Python工程師還是很有前景的，技術分享圖片

拉勾網爬取全國python職位並數據分析薪資，工作經驗，學歷等信息

add with color palette 谷歌瀏覽器 tor item imp 文件中首先前往拉勾網“爬蟲”職位相關頁面確定網頁的加載方式是JavaScript加載通過谷歌瀏覽器開發者工具分析和尋找網頁的真實請求，確定真實數據在position.Ajax開頭的鏈

拉鉤網————爬取嘗試

col arch lencod color als input pre 內容 utf #拉勾網需要User-Agent請求頭才能獲取到內容 from urllib import request url="https://www.lagou.com/jobs/l

python網絡爬蟲《爬取get請求的頁面數據》

可用 enc 搜索爬蟲程序 pre www __main__ object python網絡一、urllib庫　　urllib是python自帶的一個用於爬蟲的庫，其主要作用就是可以通過代碼模擬瀏覽器發送請求。其常被用到的子模塊在python3中的為urllib.r

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

Python爬取百度貼吧數據

utf-8 支持我 family encode code word keyword 上一條時間　　本渣除了工作外，在生活上還是有些愛好，有些東西，一旦染上，就無法自拔，無法上岸，從此走上一條不歸路。花鳥魚蟲便是我堅持了數十年的愛好。　　本渣還是需要上班，才能支持我的

python實現數據爬取-清洗-持久化存儲-數據平臺可視化

爬蟲 python 數據分析數據清理數據挖掘基於python對淘寶模特個人信息進行篩選爬取，數據清洗，持久化寫入mysql數據庫.使用django對數據庫中的數據信息篩選並生成可視化報表進行分析。數據爬取，篩選，存庫：# -*- coding:utf-8 -*- import

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

Python爬蟲《爬取get請求的頁面數據》

內置字典 tco fit eve 發送爬取 mage get請求一.urllib庫 urllib是Python自帶的一個用於爬蟲的庫，其主要作用就是可以通過代碼模擬瀏覽器發送請求。其常被用到的子模塊在Python3中的為urllib.request和urllib.p

爬取豆瓣電影儲存到數據庫MONGDB中以及反反爬蟲

ica p s latest tel mpat side nload self. pro 1.代碼如下： doubanmoive.py # -*- coding: utf-8 -*- import scrapy from douban.items import Douba

scrapy+selenium　爬取淘寶商城商品數據存入到mongo中

mage 通過 -c style settings 一個 arc lec less １．配置信息 # 設置mongo參數 MONGO_URI = ‘localhost‘ MONGO_DB = ‘taobao‘ #　設置搜索關鍵字 KEYWORDS=[‘小米手機‘,‘華為

用scrapy爬取ttlsa博文相關數據存儲至mysql

添加 contains exec 什麽 dev paths 爬取 spa mark 運維生存時間這個博客內容還是比較詳盡的,對與運維技術人員的我來說,是偶爾溜達進來的地方,從中也學習到不少知識，感謝博主的奉獻! 這段時間我就通過scrapy來收集下此博客內文章的相關數據,供

scrapy爬取伯樂在線文章數據

數據 inf 技術分享爬取 src 創建 image bsp 爬蟲創建項目切換到ArticleSpider目錄下創建爬蟲文件 scrapy爬取伯樂在線文章數據

PYTHON學習（三）之利用python進行數據分析(1)---準備工作

-- 下載 rip 安裝包 png 要求 eight code 電腦　　學習一門語言就是不斷實踐，python是目前用於數據分析最流行的語言，我最近買了本書《利用python進行數據分析》（Wes McKinney著），還去圖書館借了本《Python數據分析基礎教程--N

【量化小講堂- Python、pandas技巧系列】如何快速上手使用Python進行金融數據分析

exc 規律專業了解全能快速想法 pac 之前如何快速上手使用Python進行金融數據分析引言:本系列帖子“量化小講堂”，通過實際案例教初學者使用python、pandas進行金融數據處理，希望能對大家有幫助。【必讀文章】:《10年400倍策略分享-附視頻逐行講

從0開始，快速完成Python數據分析工程師課程的經驗分享

最好等等一次知識點 pat soup 班主任核心 mysq Python學習的起源：先說說，我的工作跟運營和產品相關，對於技術不是剛需，甚至連使用場景都極少。最開始只是因為在一次內部數據平臺的搭建過程中，發現小夥伴們都忙不過來了，就想著自己也學學，能幫忙弄一點是一點

如何使用Python搞定數據分析

了解分享圖片抓取數字資產行數據 ref 產品運營語法時間大數據是當前比較火的方向，依托於這一行業，互聯網公司對數據分析人員需求也逐年遞增，數據分析師也成為是當前比較火的從業方向。數據是企業數字資產，如何讓這些資產轉化為實際價值？通過數據分析工具或者數據分析

躁動不安的年代，你需要讀幾本好書（python爬蟲及數據分析）

req 陽光 nis ... requests delet das 大致分享當今社會，速度已經深入人心了，“快”成了大家默認的辦事境界，看機器上一件件飛一般傳遞著的產品，聽辦公室一族打電話時那種無人能及的語速......休閑的概念已日漸模糊，大家似乎都變成了在“快咒”控

scrapy爬取拉勾網python職位+Mysql+視覺化

在進行爬取目標網站中為遇到一個問題，爬取5頁資料之後會出錯，設定了每一次請求的隨機超時間10-20->time.sleep(random.randint(10, 20))，同樣會被拉勾網禁止請求資料，可能被輕度判定為爬取，所以可以設定每一次的隨機超時間為20-30秒，就可以解決這個問題。

Python 爬蟲-模擬登入知乎-爬取拉勾網職位資訊

用Python寫爬蟲是很方便的,最近看了xlzd.me的文章，他的文章寫的很到位，提供了很好的思路。因為他的文章部分程式碼省略了。下面是基於他的文章的三個程式碼片段: 基於Python3,Python2的話需要修改下input輸入函式和print的用法。爬取豆瓣電影top250 爬取拉勾網職位資訊模擬

python爬蟲: 爬取拉勾網職位並分析

0. 前言本文從拉勾網爬取深圳市資料分析的職位資訊，並以CSV格式儲存至電腦, 之後進行資料清洗, 生成詞雲，進行描述統計和迴歸分析,最終得出結論. 1. 用到的軟體包 Python版本： Python3.6 requests: 下載網

拉勾網爬取全國python職位並數據分析薪資，工作經驗，學歷等信息

相關推薦