2018-12月**網java、python、c/c++，php招聘分析

阿新 • • 發佈：2018-12-28

2018年即將結束，java、python、c/c++，php四種語言在北京，上海，廣州，深圳四個一線城市的招聘資訊分析，資料樣本來自前30頁的資料，樣本大小大概6058個。

1，資料抓取

非常簡單，基本上沒有發抓取策略

def downloader(city, keyword, page):
    '''
    :param city:
    :param keyword:
    :param page:
    :return:
    '''
    url = "https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false" \
        .format(quote(city))
    data = {
        "first": "false",
        "pn": page,
        "kd": keyword
    }
    headers = {
        "Accept": "application/json, text/javascript, */*; q=0.01",
        "Accept-Encoding": "gzip, deflate, br",
        "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
        "Connection": "keep-alive",
        "Content-Length": "26",
        "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
        "Host": "www.lagou.com",
        "Cookie": "WEBTJ-ID=20181228093856-167f276e34849d-015bd2bf49274b-6114147a-1327104-167f276e34a334; _ga=GA1.2.651225173.1545961137; _gid=GA1.2.952777220.1545961137; user_trace_token=20181228093740-29e0dba1-0a41-11e9-b14d-525400f775ce; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Fs%3Fwd%3D%25E6%258B%2589%25E5%258B%25BE%25E7%25BD%2591%26rsv_spt%3D1%26rsv_iqid%3D0xdc8f964d00002f4f%26issp%3D1%26f%3D8%26rsv_bp%3D1%26rsv_idx%3D2%26ie%3Dutf-8%26rqlang%3Dcn%26tn%3Dbaiduhome_pg%26rsv_enter%3D1%26oq%3D%2525E4%2525B8%252593%2525E8%2525B5%252584%2525E5%25258A%25259E%26rsv_t%3Df7a1d2gJnPyNK%252FsS4vTWJ9EOKhzAsK05aVgqC43iWtqWmiKpIp0u6YQblMkUzbi3KwO7%26inputT%3D8441%26rsv_pq%3D9f44c2a800002af6%26rsv_sug3%3D57%26rsv_sug1%3D62%26rsv_sug7%3D101%26bs%3D%25E4%25B8%2593%25E8%25B5%2584%25E5%258A%259E; LGUID=20181228093740-29e0e252-0a41-11e9-b14d-525400f775ce; LGSID=20181228093745-2cd1a71c-0a41-11e9-b14d-525400f775ce; PRE_UTM=m_cf_cpc_baidu_pc; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Flp%2Fhtml%2Fcommon.html%3Futm_source%3Dm_cf_cpc_baidu_pc%26m_kw%3Dbaidu_cpc_bj_e110f9_d2162e_%25E6%258B%2589%25E5%258B%25BE%25E7%25BD%2591; JSESSIONID=ABAAABAAAGGABCB3EDF3AFE52B111A35A8BDCCF214C647F; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1545961137,1545961142,1545961149; index_location_city=%E5%8C%97%E4%BA%AC; TG-TRACK-CODE=index_search; SEARCH_ID=832387387eb944a39636c9973cbd41c4; LGRID=20181228093800-3605ba8a-0a41-11e9-ad84-5254005c3644; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1545961158",
        "Origin": "https://www.lagou.com",
        "Referer": "https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=",
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
        "X-Anit-Forge-Code": "0",
        "X-Anit-Forge-Token": "None",
        "X-Requested-With": "XMLHttpRequest"
    }
    proxies = {
        "http": "****",
        "https": "****",
    }
    while True:
        try:
            response = requests.post(url, data=data, headers=headers, proxies=proxies)
            response.encoding = "utf-8"
            if response.status_code == 200:
                data = json.loads(response.text)
                result = jsonpath.jsonpath(data, "$.content.positionResult.result")[0]

                with MongodbTools("dataanalysis") as mongo:
                    lagou = mongo.db["lagou"]
                    for row in result:
                        row["_id"] = "{}".format(row["positionId"])
                        lagou.update_one({"_id": row["_id"]}, {"$set": row}, upsert=True)
                        print("update or insert data = {}".format(row["_id"]))
                break
        except BaseException as e:
            print(e)

    pass

直接儲存資料到mongodb中。

2，資料分析

1）資料清洗，格式化

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from datetime import datetime,timedelta
from pymongo import MongoClient
import time

mongo = MongoClient()["dataanalysis"]["lagou"]
values = mongo.find({},{"_id":0,"positionAdvantage":1,"salary":1,"city":1,"positionName":1,"workYear":1,"education":1,"industryField":1,"companySize":1,"financeStage":1,"firstType":1,"secondType":1,"thirdType":1})
values = [row for row in values]
df = pd.DataFrame(values)

# 格式化公司規模
def length(data,type):
    value = data.values
    if not value:
        return 0
    value = value[0]
    if not value:
        return 0
    if value.find("以上") != -1:
        if type == 1:
            return 2000
        else:
            return 10000
    elif value.find("-") != -1:
        t = value.replace("人","").split("-")
        if type == 1:
            return int(t[0])
        else:
            return int(t[1])
    else:
        if type == 1:
            return 0
        else:
            return 15
        
def min_staff(data):
    return length(data,1)

def max_staff(data):
    return length(data,2)

df["min_staff"] = df[["companySize"]].apply(min_staff,axis=1)
df["max_staff"] = df[["companySize"]].apply(max_staff,axis=1)
df = df.drop(["companySize"],axis=1)


# 格式化薪資
def salary(data,type):
    value = data.values
    if not value:
        return 0
    value = value[0]
    if not value:
        return 0
    if value.find("-") != -1:
        t = value.replace("k","").replace("K","").split("-")
        if type == 1:
            return int(t[0])*1000
        elif type == 2:
            return int(t[1])*1000
        else:
            return (int(t[0])*1000+int(t[1])*1000)/2
    else:
        return 0
        
def min_salary(data):
    return salary(data,1)

def max_salary(data):
    return salary(data,2)

def avg_salary(data):
    return salary(data,3)

df["min_salary"] = df[["salary"]].apply(min_salary,axis=1)
df["max_salary"] = df[["salary"]].apply(max_salary,axis=1)
df["avg_salary"] = df[["salary"]].apply(avg_salary,axis=1)

# 格式化語言
def language(data):
    value = data.values
    if not value:
        return None
    value = value[0]
    if not value:
        return None
    value = value.upper()
    if value.find("PYTHON") != -1:
        return "python"
    if value.find("C++") != -1:
        return "c/c++"
    if value.find("C") != -1:
        return "c/c++"
    if value.find("JAVA") != -1:
        return "java"
    if value.find("PHP") != -1:
        return "php"
    return None

df["language"] = df[["positionName"]].apply(language,axis=1)
df = df.dropna()

把薪資，語言，公司規模進行格式化資料，刪除為Nan的資料。

2）每個城市地區的平均工資圖

total_x = None
total_y = []
total_city = []
for city_name,data in df.groupby(by="city"):
    result = data.groupby(by=["language"])["avg_salary"].mean().sort_index()

    plt.figure(figsize=(20,8),dpi=80)

    _x = result.index
    _y = result.values
    plt.bar(_x,_y)
    
    total_x = _x
    total_y.append(_y)
    total_city.append(city_name)

    plt.xlabel("語言")
    plt.ylabel("平均薪資")
    plt.title("{}地區程式語言平均薪資".format(city_name))

    plt.grid()
    plt

3）平均薪資城市之間的對比

plt.figure(figsize=(20,8),dpi=80)

interval = 6
ind = np.array(range(0,len(total_x) * interval,interval))
width = 1
for index in range(len(total_city)):
    plt.bar(ind - (2 - index) * width + width/2,total_y[index],label=total_city[index],width=1)

plt.xticks(range(0,len(total_x) * interval,interval),total_x)
plt.xlabel("語言")
plt.ylabel("平均薪資")
plt.title("一線城市程式語言平均薪資")

plt.grid()
plt.legend()
plt

可見大帝都的平均工資最高（底層碼農啊，大哭。。。。。。）

4）崗位優勢的分析

import re
def position_advantage(data):
    value = data.values
    if not value:
        return []
    value = value[0]
    if not value:
        return []
    value = re.sub(r"[.~]","",value)
    return re.split(r'[,，； ;、+-]',value)
labels = list(set([i for row in df[["positionAdvantage"]].apply(position_advantage,axis=1).values for i in row if i]))
position_data = pd.DataFrame(np.zeros((df.shape[0],len(labels))).astype(int),columns=labels,index=df.index)
for label in labels:
    position_data[label][df["positionAdvantage"].str.contains(label)] = 1

result = position_data.sum().sort_values(ascending=False)

size = result[:10].values
size = [row for row in size]
labels = result[:10].index
labels = [row for row in labels]
size.append(result.sum() - sum(size))
labels.append("其它")
explode = [0 for i in range(len(size))]
explode[0] = 0.1

plt.figure(figsize=(10,10),dpi=80)
plt.pie(size, explode=explode, labels=labels, autopct='%1.1f%%',
            shadow=True, startangle=90)
plt.title("崗位優勢百分比")
plt

5）城市之間的崗位優勢對比

total_value = []
total_label = []
labels = [row for row in result[:10].index]
for index in range(len(total_city)):
    city = total_city[index]
    data = position_data[df["city"] == city]
    total_size = data.sum().sum()
    
    total_label.append(city)
    total_value.append((data[labels].sum()/total_size*10000).values.tolist())

plt.figure(figsize=(20,8),dpi=80)

interval = 8
ind = np.array(range(0,len(labels) * interval,interval))
width = 1
for index in range(len(total_label)):
    plt.bar(ind - (2 - index) * width + width/2,total_value[index],label=total_label[index],width=1)

plt.xticks(range(0,len(labels) * interval,interval),labels)
plt.xlabel("福利")
plt.ylabel("佔比(*100)")
plt.title("崗位優勢佔比圖")

plt.grid()
plt.legend()
plt

6)工作經驗要求佔比分析

#工作經驗要求佔比
for city_name,data in df.groupby(by="city"):
    result = data.groupby(by=["workYear"])["avg_salary"].count().sort_values()

    plt.figure(figsize=(8,8),dpi=80)

    _x = result.index
    _y = result.values
    plt.pie(_y, labels=_x, autopct='%1.1f%%',shadow=True, startangle=90)

    plt.title("{}地區程式語言學歷要求佔比".format(city_name))

    plt.grid()
    plt

7）學歷經驗要求佔比分析

#學歷要求佔比
for city_name,data in df.groupby(by="city"):
    result = data.groupby(by=["education"])["avg_salary"].count().sort_index()

    plt.figure(figsize=(8,8),dpi=80)

    _x = result.index
    _y = result.values
    plt.pie(_y, labels=_x, autopct='%1.1f%%',shadow=True, startangle=90)

    plt.title("{}地區程式語言學歷要求佔比".format(city_name))

    plt.grid()
    plt

8)繪製崗位優勢的詞雲圖

# 生成詞圖
from scipy.misc import imread
from wordcloud import WordCloud
from wordcloud import ImageColorGenerator
import matplotlib.pyplot as plt
from os import path

cloud = WordCloud(
        #設定字型，不指定就會出現亂碼，檔名不支援中文
        font_path="C:/simfang.ttf", 
        #font_path=path.join(d,'simsun.ttc'),
        #設定背景色，預設為黑，可根據需要自定義為顏色
        background_color='black', 
        #詞雲形狀，
        #mask=color_mask,
        #允許最大詞彙
        max_words=400,
        #最大號字型，如果不指定則為影象高度
        max_font_size=100,
        #畫布寬度和高度，如果設定了msak則不會生效
        width=1200,
        height = 800,
        margin = 2,
        #詞語水平擺放的頻率，預設為0.9.即豎直襬放的頻率為0.1
        prefer_horizontal = 0.8
    )
result = position_data.sum().sort_values(ascending=False)
_labels = [row for row in result.index]
_frequency = [row for row in result.values]
_data = { _labels[index]:_frequency[index] for index in range(len(_labels))}
wc = cloud.generate_from_frequencies(_data)

wc.to_file("cloud.jpg") #儲存圖片
#顯示詞雲圖片
plt.imshow(wc)
#不現實座標軸
plt.axis('off')
plt

2018-12月**網java、python、c/c++，php招聘分析

2018年即將結束，java、python、c/c++，php四種語言在北京，上海，廣州，深圳四個一線城市的招聘資訊分析，資料樣本來自前30頁的資料，樣本大小大概6058個。 1，資料抓取非常簡單，基本上沒有發抓取策略 def downloader(city, keyword, pag

2018年慕課網視頻教程（vue、react，docker、python、java、Go語言）

java、 tom 深度面試銷售拉勾網 react code python升級如需下述哪一個課程，加QQ: 3475362830，非免費，幾大洋，非誠勿擾！ Go語言實戰流媒體視頻網站基於Golang協程實現流量統計系統Google資深工程師深度講解Go語言 jav

免費視訊教程，2018最新Java、PYthon、web視訊

前面分享了C語言基礎後，學了c語言自然要學一門面向物件的高階語言，今天給大家分享的語言就是java，直接一部到位，java初級-》中級-》高階本課程是Java語言的經典課程，採用最著名的教材《Java程式設計思想》，《Java程式設計思想》包含的內容非常多，我們把這本書分成初級教程、中級

2018年最具就業前景的7大程式語言：Java、Python、JavaScript前三，PHP也上榜！

程式設計師頭條（ID：CoderTop）猿妹編譯原文：http://www.codingdo

Java、C++、Python、Ruby、PHP、C#和JavaScript的理解

皮膚叔叔保持大學學校 cti java 等等無需 Java、C++、Python、Ruby、PHP、C#和JavaScript和日本動漫裏的那些大家熟悉的動漫人物結合起來。依據他們的身世、個人經歷來生動的表達各編程語言的發展歷程。原文內容例

黑馬基礎階段測試題：創建一個存儲字符串的集合list，向list中添加以下字符串：”C++”、”Java”、” Python”、”大數據與雲計算”。遍歷集合，將長度小於5的字符串從集合中刪除，刪除成功後，打印集合中的所有元素

cti ati pac 完成 body ava 字符 c++ rgs package com.swift; import java.util.ArrayList; import java.util.List; import java.util.ListIterator

大數據、java、Python、區塊鏈、人工智能哪個發展前景剛好？

以太坊Go、Java、Python、Ruby、JS客戶端介紹

git 跟蹤處理 p2p 純java eth 前綴成功 contents 作者：HPB_汪曉明（HPB Team） Go Ethereum 簡介 go-ethereum客戶端通常被稱為geth，它是個命令行界面，執行在Go上實現的完整以太坊節點。通過安裝和運行get

Java、Python、C++這些語言的作用是什麼

很多小夥伴不清楚各個程式語言有什麼區別，還有，他們雖然是程式設計師，但他們很有可能不會修電腦，因為術業有專攻，這個我們以後再說。其實程式設計師之間也是有不同的的，比如Java程式設計師、Python程式設計師他們用的是不同的語言，當然，用任何程式語言來開發程式，都是為了讓計算機幹活，但他們主要做什麼那就不

C、C++、Java、JavaScript、PHP、Python、Ruby 這些語言分別主要用來開發什麼？

pansz，歡迎評論此貼純科普用，以下僅僅說主要用途，其他用途限於篇幅關係省略之，不要鑽牛角尖。 C：系統底層，驅動程式，嵌入式底層，基礎服務程式。 C++：上層服務程式，應用API，大型3D遊戲。 Java：服務端應用程式，以及客戶端應用程式。 JS：在瀏覽器中執行的程式。 PHP：Web伺

比較分析C++、Java、Python、R語言的面向物件特徵，這些特徵如何實現的？有什麼相同點？

一門課的課後題答案，在這裡備份一下：面向物件程式設計語言 – 比較分析C++、Java、Python、R語言的面向物件特徵，這些特徵如何實現的？有什麼相同點？ C++ 語言的面向物件特徵：物件模型：封裝 (1) 訪問控制機制： C++提供完善的訪問控制機制，分別是： p

2018.12.04——跑通faster rcnn、val是validation的簡稱

GitHub faster rcnn =====================執行技巧====================== $ 需要使用者自定義的意思

C、C++、Java、JavaScript、PHP、Python、Ruby這些語言分別主要用來開發什麼？

c語言主要用於底層和驅動，編譯器開發 c語言高效底層，主要用於底層的開發，比如一些系統驅動；unix，linux系統和其上相關應用的開發；有很多語言比如python、php、perl、ruby等都c語言開發的這些語言的核心庫，編譯器等開發都是c語言。比如鳥哥的php7的開發，就基

Java、PHP、Python、Erlang、Golang 千萬級記憶體資料插入、查詢效能對比

測試環境： centos 6.3 64bit php 7.2 java 1.86 python 3.4.8Erlang/OTP 19 [erts-8.1]golang 1.9.2 至強2.5G 4核 x 2 8 G記憶體 146g scsi x 2 raid 0+1 測試

百度網盤不限速目前最靠譜的下載方式（親測完美使用）2018.12月更新

眾所周知，百度網盤的檔案已經對非會員進行了各種限速。不過由於國內其他網盤基本都殘廢了，百度網盤作為僅存的少數幾個，需求還是很大的，經常會碰到別人分享的百度網盤資料夾。今天介紹的這種方法就是通過這款軟體）進行不限速下載。這種方法是目前僅存下來的高速下載網盤資源的方式。連結：https:

環境變數配置（Java、Python、Tomcat、Maven）

一、Java 變數值 JAVA_HOME D:\Program Files\Java\jdk1.8.0_151 PATH %JAVA_HOME%\bin;

大資料，人工智慧，Java、Scala、Python、Shell、Linux，前端，資料庫等QQ群

進QQ群（779809018）免費送，歡迎大家，加入我的微信公眾號：程式碼幫，免費送人生苦短，我願分享。本公眾號將秉持活到老學到老學習無休止的交流分享開源精神，匯聚於網際網路和個人學習工作的精華乾貨知

【陌上軒客】技術領域：涉獵Java、Go、Python、Groovy 等語言，高效能、高併發、高可用、非同步與訊息中介軟體、快取與資料庫、分散式與微服務、容器和自動化等領域；興趣愛好：籃球，騎行，讀書，發呆；職業規劃：勵志成為一名出色的伺服器端系統架構師。

陌上軒客技術領域：涉獵Java、Go、Python、Groovy 等語言，高效能、高併發、高可用、非同步與訊息中介軟體、快取與資料庫、分散式與微服務、容器和自動化等領域；興趣愛好：籃球，騎行，讀書，發呆；職業...

C、python 、java記憶體管理區別

3、全域性區（靜態區）（static）—，全域性變數和靜態變數的儲存是放在一塊的，初始化的全域性變數和靜態變數在一塊區域，未初始化的全域性變數和未初始化的靜態變數在相鄰的另一塊區域。 - 程式結束後有系統釋放

jython環境安裝、java呼叫python、中文亂碼問題

1、jython安裝 jython下載地址 http://www.jython.org/downloads.html （1）直接雙擊“jython-installer-2.7.0.jar”一步步安裝即可（2）配置環境變數，新建系統環境變數: JYTHON_HO

2018-12月**網java、python、c/c++，php招聘分析

1，資料抓取

2，資料分析

1）資料清洗，格式化

2）每個城市地區的平均工資圖

3）平均薪資城市之間的對比

4）崗位優勢的分析

5）城市之間的崗位優勢對比

6)工作經驗要求佔比分析

7）學歷經驗要求佔比分析

8)繪製崗位優勢的詞雲圖

相關推薦