python、Java、大資料和Android的薪資如何？

阿新 • • 發佈：2018-12-10

　　莫名其妙，從去年年底開始，Python這個東西在中國，突然一下子就火起來了，直至現在，他的熱度更是超越了java，成為軟體工程師最為關注的話題。Python之所以能火起來，很大一方面是因為大資料、人工智慧和機器學習越來越受人關注的原因，那麼，伴隨著Python的火熱，他的薪資是否也相應的高了起來了呢？於是，針對這個話題，在今年暑假，我做了一個關於Python、java和大資料和安卓的工作崗位的調查。

　　Java火了幾十年，工作也是所有程式語言中最容易找的，這裡面有很大一部分原因是由於安卓還得由Java開發（即使現在出了Kotlin），那麼Python和大資料的工作狀態又是怎麼樣的呢？於是在這裡，我從51job中爬取了這四個職業的相關情況。

一、專案介紹

主要目標

1、分析python、Java、大資料和Android崗位的薪資如何？

2、分析python、Java、大資料和Android崗位在全國的分佈情況

3、python、Java、大資料和Android的前景到底如何？

環境

win7、python2、pychram

技術

1、資料採集：scrapy、

2、資料儲存：csv檔案、json檔案

3、資料清洗：pandas

4、視覺化：matplotlib、百度地圖API

二、爬取

在招聘網上分別搜尋這四個職業，查看了一下url、頁碼和需要爬取的資料，求出xpath：

使用scrapy框架進行爬取，程式碼如下：

items:

import scrapy


class Job51Item(scrapy.Item):
    # 職位名
    jobname = scrapy.Field()

    # 公司名
    company = scrapy.Field()

    # 工作地點
    work_place = scrapy.Field()

    # 薪資
    salary = scrapy.Field()

    # 職位連結
    joblink = scrapy.Field()

spiders:

# -*- coding: utf-8 -*-
import scrapy
from 
 ..items import Job51Item


class JobSpider(scrapy.Spider):
    name = 'job'
    allowed_domains = ['51job.com']
    offset = 1

    # ------------
    # 控制鏈
    lang = '安卓'   # 職位
    page = 260    # 頁碼
    # ------------

    start_urls = ['https://search.51job.com/list/000000,000000,0000,00,9,99,%s,2,%d.html'%(lang,offset)]

    def parse(self, response):

        ajob = response.xpath('//div[@id="resultList"]/div[@class="el"]')

        for job in ajob:

            item = Job51Item()

            item['jobname'] = job.xpath('./p/span/a/@title').extract()

            item['company'] = job.xpath('./span[1]/a/text()').extract()

            item['work_place'] = job.xpath('./span[2]/text()').extract()

            item['salary'] = job.xpath('./span[3]/text()').extract()

            item['joblink'] = job.xpath('./p/span/a/@href').extract()

            yield item

        if self.offset <= self.page:
            self.offset += 1
            yield scrapy.Request(url='https://search.51job.com/list/000000,000000,0000,00,9,99,%s,2,%d.html'%(self.lang,self.offset),callback=self.parse)

修改控制鏈中的lang和page變數，分別爬取4個職位。

執行scrapy：scrapy crawl job -o android1.csv

資料儲存在一個csv檔案中，會得到5個csv檔案，對應4種職位，其中Android有Android和安卓：

接下來對檔案去重合並：

# -*- coding: utf-8 -*-
import pandas as pd

java_job = pd.read_csv('data/job_java.csv')
# print java_job.shape
# (100000, 5)

python_job = pd.read_csv('data/job_python.csv')
# print python_job.shape
# (41421, 5)

bigdata_job = pd.read_csv('data/job_bigdata.csv')
# print bigdata_job.shape
# (61191, 5)

android1_job = pd.read_csv('data/job_android1.csv')
# print android1_job.shape
# (31734, 5)

android2_job = pd.read_csv('data/job_android2.csv')
# print android2_job.shape
# (12961, 5)

df = pd.concat([java_job,python_job,bigdata_job,android1_job,android2_job])
# df = python_job.append(java_job).append(bigdata_job)
# print df.shape
# (202612, 10)
# 新增Android12之後：(247308, 5)

# df.to_csv('data/job.csv',index=False)
df.drop_duplicates(inplace=True)
print df.shape
# (168544, 5)
# (192781, 5)
df = df.reindex(columns=[u'jobname', u'work_place', u'salary', u'company', u'joblink'])
df.to_csv('data/job.csv',index=False)

檔案：

部分檔案結果截圖：

接著跟進連結，爬取職位詳細資訊，如圖：

程式碼如下：

items:

class BaseJobItem(scrapy.Item):

    # 職位連結
    job_link = scrapy.Field()

    # 職位資訊
    job_info = scrapy.Field()

    # 職能型別
    job_type = scrapy.Field()

spiders：

# -*- coding: utf-8 -*-
import scrapy
from ..items import BaseJobItem
import pandas as pd


def get_link():

    df = pd.read_csv('../data/job.csv',encoding='utf-8')

    return df['joblink']


class JobSpider(scrapy.Spider):
    name = 'basejob'
    allowed_domains = ['51job.com']

    start_urls = get_link()

    def parse(self, response):

        item = BaseJobItem()

        job_info = response.xpath('//div[@class="bmsg job_msg inbox"]/p/text()').extract()
        job_type = response.xpath('//div[@class="bmsg job_msg inbox"]/div[@class="mt10"]/p[1]/span[@class="el"]/text()').extract()

        item['job_link'] = response.url
        item['job_info'] = job_info
        item['job_type'] = job_type

        return item

執行：scrapy crawl basejob -o basejob.csv

資料量有點大，話費了三個小時爬完。

效果如下：

檔案有184M：

接下來將兩個檔案(job.csv和basejob.csv)合併：

# -*- coding: utf-8 -*-
import pandas as pd

df1 = pd.read_csv('./data/basejob.csv',header=0,encoding='utf-8',names=u'job_info,job_type,joblink'.split(','))

df2 = pd.read_csv('./data/job.csv',encoding='utf-8')

# print df1.head()
df = pd.merge(df1,df2,on='joblink')

print df.sample(5)

df = df.reindex(columns=u'jobname,work_place,salary,company,joblink,job_type,job_info'.split(','))
df.to_csv('./data/zhaoping.csv',index=False,encoding='utf-8')
# ,index_label=u'jobname,work_place,salary,company,joblink,job_type,job_info'.split(',')

得到最終檔案zhaoping.csv：

三、分析

這四種職業的薪資如何呢？針對這個問題，我將這些資料進行清洗，然後分析再使之視覺化。

因為只需要分析薪資，所以知道職位和薪資的欄位就行了，這裡使用job.csv檔案進行分析。

首先讀取資料並清洗：

import pandas as pd

df = pd.read_csv('data/job.csv', encoding='utf-8')

df = df[~df['salary'].isna()]

df['salary'] = df['salary'].apply(get_salary)

接下來將薪資格式化：

def get_salary(salary):
    """
    將薪資格式化
    :param salary:薪資，如：1-1.5萬/月
    :return: 10K
    """

    time = salary.split('/')[1]
    if salary.__contains__('-'):
        money = salary.split('/')[0][-1]
        salary_num = salary.split('-')[0]
    else:
        salary_num = re.search('\d+',salary.split('/')[0]).group()
        money = salary.split('/')[0].strip(salary_num)
    try:
        salary_num = float(salary_num)
    except:
        print salary,'=',money,salary_num
    if time == u'年':
        salary_num = salary_num/12
    elif time == u'天':
        salary_num *= 30.
    elif time == u'小時':
        salary_num *= 30*12
    if money == u'萬':
        salary_num *= 10
    elif money == u'元':
        salary_num /= 1000

    return salary_num

獲取不同語言的薪資待遇的對比並畫圖：

def diff_lang():
    """
    獲取不同語言的薪資待遇的對比
    :return:
    """

    lang = ['python','java',u'大資料',u'安卓','android']

    avg_salary = map(get_avg_salary,lang)

    # 針對Android和安卓做特殊處理
    lang = lang[:-1]
    avg_salary = avg_salary[:-2]+[sum(avg_salary[-2:])/len(avg_salary[-2:])]

    print lang
    print avg_salary

    for i,j in zip(lang,avg_salary):
        print '%s的平均薪資為:%.3fK' % (i.encode('utf-8'),j)

    p = plt.bar(lang,avg_salary)

    autolabel(p)
    plt.xlabel(u'程式語言')
    plt.ylabel(u'平均薪資')
    plt.title(u'python、java、大資料和安卓職業薪資待遇對比')
    plt.show()

還有獲取某個程式語言的平均薪資的方法：

def get_avg_salary(lang='',city=''):
    """
    獲取某個程式語言的平均薪資
    :param lang: 程式語言名
    :return: 平均薪資
    """
    jobdf = df[df['jobname'].str.contains(lang)]

    if city != '':
        jobdf = jobdf[jobdf['work_place'].str.contains(city)]
        if jobdf.shape[0] < 10:
            return
    sum_salary = jobdf['salary']

    return sum_salary.astype(float).mean()

還有畫圖時顯示柱狀圖上的數值的方法：

def autolabel(rects):
    """
    定義函式來顯示柱狀上的數值
    :param rects:matplotlib.container.BarContainer
    :return:
    """
    for rect in rects:
        height = rect.get_height()
        plt.text(rect.get_x(), 1.01*height, '%.1f' % float(height))

為了顯示中文字還要宣告一下字型：

plt.rcParams['font.sans-serif'] = ['kaiti']

執行diff_lang()函式：

從圖中可以看出，大資料的薪資是最高的，達到了1W以上，而Python和Java位居二三，卻遠遠沒有大資料的薪資高，而安卓在這幾個職位中薪資是最低的。

然後對同一語言不通地區薪資的待遇進行分析對比：

def diff_place():
    """
    獲取同一語言不通地區薪資的待遇
    :return:
    """

    citys = list(df['work_place'].str.split('-').map(lambda x:x[0]).drop_duplicates())

    citys.remove(u'朝陽')
    # 朝陽有點特殊，有些城市直接就是朝陽，不過數量太少，直接忽略了，所以這裡做朝陽的特殊處理

    lang = ['python', 'java', u'大資料',u'安卓','android']

    # ls如：['python','北京']
    ls = [[a,b] for a in lang for b in citys]

    # x是某種語言在某個城市的平均薪資
    x = [get_avg_salary(*l) for l in ls]


    info = {}

    for i,j in zip(ls,x):
        # if j != None:
        #     print i[0],i[1],j
        if not info.has_key(i[0]):
            info[i[0]] = {}
            info[i[0]]['city'] = []
            info[i[0]]['avg_salary'] = []
        if j != None:
            info[i[0]]['city'] += [i[1]]
            info[i[0]]['avg_salary'] += [j]

    # info的可能取值如：info = {"python": {"city": ["上海", "成都",...],"avg_salary": [11.974358974358974, 7.016129032258065, ...]},...}

    # 特殊處理:對安卓和Android的資料進行合併
    info = get_android(info)

    with open('./data/inf.json','w') as inf:
        json.dump(info,inf)

    plt.figure(1,(12,6))
    plt.title(u'python、java、大資料和安卓職業各城市薪資待遇對比(單位：K)')
    for l in lang[:-1]:
        plt.subplot(len(lang[:-1]),1,lang.index(l) + 1)

        so = zip(info[l]['city'],info[l]['avg_salary'])
        so.sort(key=lambda x:x[1],reverse=True)
        p = plt.bar(range(len(info[l]['city'])),map(lambda x:x[1],so),label=l)
        plt.xticks(range(len(info[l]['city'])),map(lambda x:x[0],so),rotation=45)
        autolabel(p)
        plt.tight_layout()
        plt.legend()

    plt.show()

對安卓和Android的資料進行合併：

def get_android(info):
    """
    對安卓和Android的資料進行合併
    :param info: = {"python": {"city": ["上海", "成都",...],"avg_salary": [11.974358974358974, 7.016129032258065, ...]},...}

    :return: info
    """
    citys = set(info['android']['city']+info[u'安卓']['city'])

    for city in citys:
        i,j = 0, 0
        if city in info['android']['city']:
            i = info['android']['avg_salary'][info['android']['city'].index(city)]
        if city in info[u'安卓']['city']:
            j = info[u'安卓']['avg_salary'][info[u'安卓']['city'].index(city)]
        else:
            info[u'安卓']['city'].append(city)
            info[u'安卓']['avg_salary'].append(i)
        info[u'安卓']['avg_salary'][info[u'安卓']['city'].index(city)] = (i+j)/2
    del info['android']
    return info

最後得到同一語言不同地區薪資的待遇結果圖如下：

可以以熱力圖顯示資料，這裡使用百度的api：

# -*- coding: utf-8 -*-
import json
from urllib import urlopen, quote
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

def getlnglat(address):
    url = 'http://api.map.baidu.com/geocoder/v2/'
    output = 'json'
    ak = 'FOtHtZ92dCKMjpx0XA05g8VEZn95QWOK'
    add = quote(address.encode('utf-8')) #由於本文城市變數為中文，為防止亂碼，先用quote進行編碼
    uri = url + '?' + 'address=' + add  + '&output=' + output + '&ak=' + ak
    print uri
    req = urlopen(uri)
    res = req.read() #將其他編碼的字串解碼成unicode
    temp = json.loads(res) #對json資料進行解析
    return temp

file = open(r'./data/city.json','w') #建立json資料檔案
with open(r'./data/test.json', 'r') as f:

    js = json.load(f)

    data = []
    for k,v in js.iteritems():
        c = {}
        c['city'] = k
        c['points'] = []
        for i in range(len(v['city'])):
            if v['city'][i] == u'異地招聘':
                continue
            lnglat = getlnglat(v['city'][i])  # 採用構造的函式來獲取經度
            test = {}
            test['lng'] = lnglat['result']['location']['lng']
            test['lat'] = lnglat['result']['location']['lat']
            test['count'] = v['avg_salary'][i]

            c['points'].append(test)
        data.append(c)

    json.dump(data,file,ensure_ascii=False)

那麼Python在不同地區薪資的待遇熱力圖如下，其中，越往中間顏色越深薪資越高：

從上如看出Python 的主要工作地區集中在長江三角洲、珠江三角洲一帶，而北京的薪資是最高的還有幾個內地城市佔比也不低。

那麼看一下Java在不同地區薪資的待遇熱力圖：

從圖可以看出，Java工作地點同樣是集中於那三帶地區，不過相比於Python，他的主要工作地點更多，且最高薪資大多集中在珠江三角洲。

再看一下大資料在不同地區薪資的待遇熱力圖：

目測大資料和Java分佈差別不大，不過從圖中紅色區域分佈可以看出，大資料的薪資更高。

最後看一下安卓在不同地區薪資的待遇熱力圖：

安卓的工作分佈低於其他的幾種（比Python略高點），而且薪資也也不如其他的幾門語言。

從上述四個熱力圖分析不難看出：

1、大資料無論是工作地點還是薪資均高於其他三種職業；

2、Python火則火矣，薪資也不低，但工作地點還是太少；

3、Java仍舊是寶刀未老，其工作地點和薪資也僅次於大資料行業；

4、安卓終究過時了，薪資比不上其他三個職業，也就工作地點要比Python多點；

由此觀之，大資料的發展空間是最大的，前途也是最好的，Java仍然是不二的選擇，Android已過時，Python還待發展。

再看一下4種職位的崗位分析圖

先看Python崗位的程式碼：

# -*- coding: utf-8 -*-
import pandas as pd
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['kaiti']

df = pd.read_csv('./data/job_python.csv',encoding='utf-8')

s = df['jobname'].value_counts()

job = s[s>150]

plt.pie(x =job.values,labels=job.index,autopct='%2.1f%%')

plt.show()

其他的同理，最後得到餅圖：

Python：

Java：

大資料：

安卓：

最後來看一下Python語言的職能型別詞雲，程式碼：

# -*- coding: utf-8 -*-
import pandas as pd


df1 = pd.read_csv('./data/job_python.csv',encoding='utf-8')

df2 = pd.read_csv('./data/zhaoping.csv', encoding='utf-8')

df = pd.merge(df1,df2,on=list(df1.columns))

df = df[~df['job_info'].isna()]

dfpy = df[df['job_info'].str.contains('python')]

s = dfpy['job_type'].str.split(',').sum()

# print pd.Series(s).value_counts()
print s

# 繪製詞雲圖：
from wordcloud import WordCloud
import matplotlib.pylab as plt


wl = " ".join(s)

generate = WordCloud(
    # 'C:/Users/Windows/fonts/msyh.ttf'
    font_path = 'C:/Users/Windows/fonts/msyh.ttf',
    background_color='white',
    max_words=30,
    prefer_horizontal = 0.8,
    random_state=88
).generate(wl)

plt.figure(figsize=(8,5))
plt.imshow(generate)
plt.axis("off")
# plt.savefig(u'../day5-2/黑卡詞雲圖.png')
plt.show()

其他職業的也大致如此.

Python：

Java：

大資料：

安卓：

python、Java、大資料和Android的薪資如何？

一、專案介紹

主要目標

環境

技術

二、爬取

三、分析

python、Java、大資料和Android的薪資如何？

大資料、java、python、區塊鏈、人工智慧哪個發展前景更好？

大資料、java、python、區塊鏈、人工智慧發展前景

終於有人把雲端計算、大資料和人工智慧講明白了！（1）

終於有人把雲端計算、大資料和人工智慧講明白了！（2）

雲端計算、大資料和人工智慧的關係

人工智慧、大資料和複雜系統一月特訓班入門到精通實戰視訊教程

終於有人把雲端計算極速賽車原始碼出售、大資料和人工智慧講明白了！

Java物件和例項的關係、Java資料封裝、Java繼承和多型、Java抽象類和介面、Java靜態欄位和方法、Java包和作用域、Java的classpath和jar、Java核心類

終於把雲端計算、大資料和 AI 講明白了

資料、資訊、知識《智慧時代--大資料和智慧革命重新定義未來》

終於有人把雲端計算、大資料和人工智慧講明白了

有營養的廢話：人工智慧、大資料和高效能運算融合成為趨勢丨AI推理伺服器，能讀懂福爾摩斯？【軟體網每日新聞播報│第10-24期】

雲端計算、大資料和 AI

終於有人把雲端計算、大資料和人工智慧講明白了！

如何理解雲端計算、大資料和人工智慧的關係？

3、java中的資料型別和運算子

雲端計算、大資料和人工智慧這麼火，究竟是什麼關係？

終於有人把雲端計算、大資料和 AI 講明白了

終於有人把雲端計算、大資料和 AI 講明白了【轉載】

python、Java、大資料和Android的薪資如何？

一、專案介紹

主要目標

環境

技術

二、爬取

三、分析

相關推薦