我爬取了爬蟲崗位薪資，分析後發現爬蟲真香

阿新 • • 發佈：2020-12-12

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理

首先，確定目標網站：

https://jobs.51job.com/pachongkaifa

1.開始

開啟pycharm，新建檔案->匯入必備的庫->加入常用的請求頭header

# 匯入requests包
import requests
from lxml import etree
# 網頁連結
url = "https://jobs.51job.com/pachongkaifa/p1/"
# 請求頭
headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9",
"Connection": "keep-alive",
"Cookie": "guid=7e8a970a750a4e74ce237e74ba72856b; partner=blog_csdn_net",
"Host": "jobs.51job.com",
"Sec-Fetch-Dest": "document",
"Sec-Fetch-Mode": "navigate",
"Sec-Fetch-Site": "none",
"Sec-Fetch-User": "?1",
"Upgrade-Insecure-Requests": "1",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36"
}

2.分析目標網站的標籤，發現想要的欄位（崗位、公司名稱、城市、薪資）都在p標籤裡面,如下圖

<p class="info">

3.開始編寫程式碼

先通過request請求網頁，防止中文亂碼，進行gbk的編碼（如果不設定則會出現亂碼）

res = requests.get(url=url, headers=headers)
res.encoding='gbk'
s = res.text

，接著進行解析網頁，獲取想要的內容

selector = etree.HTML(s)
for item in selector.xpath('/html/body/div[4]/div[2]/div[1]/div/div'):
title = item.xpath('.//p/span[@class="title"]/a/text()')
name = item.xpath('.//p/a/@title')
location_name = item.xpath('.//p/span[@class="location name"]/text()')
sary = item.xpath('.//p/span[@class="location"]/text()')
time = item.xpath('.//p/span[@class="time"]/text()')
if len(title)>0:
print(title)
print(name)
print(location_name)
print(sary)
print(time)
print("-----------")

最後出現執行後，結果如下：

4.儲存到csv檔案

為了方便下一步我們對資料進行分析，我將爬取下來的資料儲存到csv檔案

匯入需要的庫包

import csv
import codecs

建立csv檔案，並設定為追加寫模式

f = codecs.open('爬蟲工程師崗位薪資.csv','a','gbk')
writer = csv.writer(f)
writer.writerow(["崗位","公司","城市","薪資"])

在爬取檔案的時候將爬取的內容迴圈寫入csv

writer.writerow([title[0]+"",name[0]+"",location_name[0]+"",sary[0]+""])

儲存好的csv資料如下：

5.分析資料並進行視覺化

從csv中讀取爬取好的資料

with open('爬蟲工程師崗位薪資.csv','r',encoding = 'gbk') as fp:
reader = csv.reader(fp)
for row in reader:
#崗位
title_list.append(row[0])
#城市
city_list.append(row[2][0:2])
#薪資分佈
sary = row[3].split("-")
if(len(sary)==2):
try:
sary = sary[1].replace("/月","")
if "萬" in sary:
sary = sary.replace("萬","")
sary = int(sary)
sary = sary*10000
sary_list.append(sary)
if "千" in sary:
sary = sary.replace("千","")
sary = int(sary)
sary = sary * 1000
sary_list.append(sary)
except:
pass

這裡用了三個集合來儲存系統分析的內容（崗位、城市、薪資分佈）

#崗位
title_list=[]
#城市
city_list=[]
#薪資分佈
sary_list=[]

由於薪資是1萬/月、2萬/月，為了轉為10000、20000，則需要進行相應的處理。

開始分析了

5.1.視覺化1：爬蟲崗位常用名稱

dict_x = {}
for item in title_list:
dict_x[item] = title_list.count(item)
sorted_x = sorted(dict_x.items(), key=operator.itemgetter(1), reverse=True)
k_list = []
v_list = []
for k, v in sorted_x[0:11]:
k_list.append(k)
v_list.append(v)
plt.axes(aspect=1)
plt.pie(x=v_list,labels= k_list,autopct='%0f%%')
plt.savefig("爬蟲崗位常用名稱.png", dpi=600)
plt.show()

從圖中可以看出，大多數公司都需要用"爬蟲開發工程師"這個詞

5.2.視覺化2：爬蟲崗位最多的城市

dict_x = {}
for item in city_list:
dict_x[item] = city_list.count(item)
sorted_x = sorted(dict_x.items(), key=operator.itemgetter(1), reverse=True)
k_list = []
v_list = []
for k, v in sorted_x[0:11]:
print(k, v)
k_list.append(k)
v_list.append(v)
plt.bar(k_list,v_list, label='爬蟲崗位最多的城市')
plt.legend()
plt.xlabel('城市')
plt.ylabel('數量')
plt.title(u'爬蟲崗位最多的城市(李運辰)')
plt.savefig("爬蟲崗位最多的城市.png", dpi=600)
plt.show()

從圖中來看，大城市（北上廣深）的爬蟲工程師崗位居多

5.3.視覺化3：薪資分佈情況

dict_x = {}
for item in sary_list:
dict_x[item] = sary_list.count(item)
sorted_x = sorted(dict_x.items(), key=operator.itemgetter(1), reverse=True)
k_list = []
v_list = []
for k, v in sorted_x[0:15]:
print(k, v)
k_list.append(k)
v_list.append(v)
plt.axes(aspect=1)
plt.title(u'薪資分佈情況(李運辰)')
plt.pie(x=v_list, labels=k_list, autopct='%0f%%')
plt.savefig("薪資分佈情況.png", dpi=600)
plt.show()

我們可以發現，爬蟲工程師的薪資在20000+以上的佔大半數，尤其是20000左右的居多，看來爬蟲崗位真是太香，你酸了嗎，哈哈哈哈

data = pd.DataFrame({"value":sary_list})
cats1 = pd.cut(data['value'].values, bins=[8000, 10000, 20000, 30000, 50000,data['value'].max()+1])
pinshu = cats1.value_counts()
pinshu_df = pd.DataFrame(pinshu, columns=['頻數'])
pinshu_df['頻率f'] = pinshu_df / pinshu_df['頻數'].sum()
pinshu_df['頻率%'] = pinshu_df['頻率f'].map(lambda x: '%.2f%%' % (x * 100))
pinshu_df['累計頻率f'] = pinshu_df['頻率f'].cumsum()
pinshu_df['累計頻率%'] = pinshu_df['累計頻率f'].map(lambda x: '%.4f%%' % (x * 100))
print(pinshu_df)
print()
print("李運辰")

從薪資範圍來看，在10000-20000之間站大多數，基本很不錯的薪資，大於20000+的很有一些，真是誘惑太大了

想要獲取更多Python學習資料可以加QQ:2955637827私聊或加Q群630390733大家一起來學習討論吧！

我爬取了爬蟲崗位薪資，分析後發現爬蟲真香

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理

一晚上功夫爬取了海量資源連結，卻不知如何自動儲存到網盤，一袋煙後我頓悟了

覺得有幫助的別忘了關注一下知識圖譜與大資料公眾號,完整程式碼移步從今天開始種樹

爬取湖人隊球員的薪資，視覺化顯示資料，詹姆斯一人頂全隊

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

PHP爬取網頁的主要方法，你掌握了嗎

這篇文章講的是PHP爬取網頁的主要方法，主要流程就是獲取整個網頁，然後正則匹配（關鍵的）。

小夥子不講武德，竟用Python爬取了B站上1.4萬條馬老師視訊資料來分析

看到標題，啪的一下你就進來了吧！如果有經常刷B站的小夥伴，肯定都知道B站鬼畜現在的頂流是誰？

用Python爬取了三大相親軟體評論區，結果...

小三：怎麼了小二？一副愁眉苦臉的樣子。小二：唉！這不是快過年了嗎，家裡又催相親了 ...

利用 Python 爬取了 13966 條運維招聘資訊，看看你是否符合招聘資訊！

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲進階之爬取某視訊並下載，沒有廣告的視訊看起來不爽嗎？

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲實戰，爬取A股公司資料，簡單分析A股公司並生成詞雲

前言利用Python爬取並簡單分析A股公司資料。讓我們愉塊地開始吧~ 開發工具 Python版本：3.6.4

爬取精美桌布5w張，愛了愛了

　　近日接到一個需求——爬取某應用商店所有線上銷售桌布，這個任務起初讓我驚呆了。因為上級沒有給我解決風控問題，若爬取在售資源被人家廠商追責怎麼辦？若造成人家伺服器出問題怎麼辦？問的時候上級含糊其辭，唉

如何獲取web視訊資料流的傳輸?小姐姐的視訊都被我爬下來了，這誰頂得住

大家好，我是辣條。效果展示爬取目標網站：六間房工具使用開發工具：pycharm 開發環境：python3.7， Windows10 使用工具包：requests，lxml

Python爬取某境外網站漫畫，心血來潮，爬之

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python爬取豆瓣急先鋒電影評論，龍叔的電影居然分這麼低

豆瓣電影首頁，亮麗的風景，居然這麼低的分，和同是國慶黨電影差距這麼大，唯一低分的還是國產木蘭，差不多低分的居然是女神劉亦菲，從小看龍叔電影、劉亦菲劍仙的人，不服了，看看評論是則麼說的。

爬取比比網中標標書，並儲存為PDF格式檔案

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬取 MT論壇主題帖，小批量抓取想看的主題

import requests from bs4 import BeautifulSoup from fake_useragent import UserAgent import random from lxml import etree

python爬蟲爬取淘寶商品比價(附淘寶反爬蟲機制解決小辦法)

因為評論有很多人說爬取不到，我強調幾點 kv的格式應該是這樣的： kv = {‘cookie\':‘你複製的一長串cookie\',‘user-agent\':‘Mozilla/5.0\'}

Python爬取某東羽絨服資料，用視覺化幫你挑選心儀的衣服

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

有哪些比較好的相親軟體呢？爬取三大相親軟體評論，慘不忍睹

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

教你如何爬取美團網資料，就是那麼的簡單

本文的文字及圖片過濾網路，可以學習，交流使用，不具有任何商業用途，如有問題請及時聯絡我們以作處理。

Python爬取大廠找招聘資料，看看大家的差別在哪裡

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。