1. 程式人生 > >python爬取拉勾網資料並進行資料視覺化

python爬取拉勾網資料並進行資料視覺化

爬取拉勾網關於python職位相關的資料資訊,並將爬取的資料已csv各式存入檔案,然後對csv檔案相關欄位的資料進行清洗,並對資料視覺化展示,包括柱狀圖展示、直方圖展示、詞雲展示等並根據視覺化的資料做進一步的分析,其餘分析和展示讀者可自行發揮和擴充套件包括各種分析和不同的儲存方式等。。。。。

一、爬取和分析相關依賴包

  1. Python版本: Python3.6
  2. requests: 下載網頁
  3. math: 向上取整
  4. time: 暫停程序
  5. pandas:資料分析並儲存為csv檔案
  6. matplotlib:繪圖
  7. pyecharts:繪圖
  8. statsmodels:統計建模
  9. wordcloud、scipy、jieba:生成中文詞雲
  10. pylab:設定畫圖能顯示中文

在以上安裝或使用過程中可能讀者會遇到安裝或匯入失敗等問題自行百度,選擇依賴包的合適版本

二、分析網頁結構

通過Chrome搜尋'python工程師',然後右鍵點選檢查或者F12,,使用檢查功能檢視網頁原始碼,當我們點選下一頁觀察瀏覽器的搜尋欄的url並沒有改變,這是因為拉勾網做了反爬蟲機制, 職位資訊並不在原始碼裡,而是儲存在JSON的檔案裡,因此我們直接下載JSON,並使用字典方法直接讀取資料.即可拿到我們想要的python職位相關的資訊,

待爬取的python工程師職位資訊如下:

為了能爬到我們想要的資料,我們要用程式來模擬瀏覽器來檢視網頁,所以我們在爬取的過程中會加上頭資訊,頭資訊也是我們通過分析網頁獲取到的,通過網頁分析我們知道該請求的頭資訊,以及請求的資訊和請求的方式是POST請求,這樣我們就可以該url請求拿到我們想的資料做進一步處理

爬取網頁資訊程式碼如下:

import requests

url = ' https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'


def get_json(url, num):
    """
    從指定的url中通過requests請求攜帶請求頭和請求體獲取網頁中的資訊,
    :return:
    """
    url1 = 'https://www.lagou.com/jobs/list_python%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88?labelWords=&fromSearch=true&suginput='
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
        'Host': 'www.lagou.com',
        'Referer': 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput=',
        'X-Anit-Forge-Code': '0',
        'X-Anit-Forge-Token': 'None',
        'X-Requested-With': 'XMLHttpRequest'
    }
    data = {
        'first': 'true',
        'pn': num,
        'kd': 'python工程師'}
    s = requests.Session()
    print('建立session:', s, '\n\n')
    s.get(url=url1, headers=headers, timeout=3)
    cookie = s.cookies
    print('獲取cookie:', cookie, '\n\n')
    res = requests.post(url, headers=headers, data=data, cookies=cookie, timeout=3)
    res.raise_for_status()
    res.encoding = 'utf-8'
    page_data = res.json()
    print('請求響應結果:', page_data, '\n\n')
    return page_data


print(get_json(url, 1))

通過搜尋我們知道每頁顯示15個職位,最多顯示30頁,通過分析網頁原始碼知道,可以通過JSON裡讀取總職位數,通過總的職位數和每頁能顯示的職位數.我們可以計算出總共有多少頁,然後使用迴圈按頁爬取, 最後將職位資訊彙總, 寫入到CSV格式的檔案中.

程式執行結果如圖: 

爬取所有python相關職位資訊如下:

三、資料清洗後入庫

資料清洗其實會佔用很大一部分工作,我們在這裡只做一些簡單的資料分析後入庫。在拉勾網輸入python相關的職位會有18988個。你可以根據工作中需求選擇要入庫的欄位,並對一些欄位做進一步的篩選,比如我們可以去除職位名稱中為實習生的崗位,過濾指定的欄位區域在我們指定區域的職位,取欄位薪資的平均值,以最低值和差值的四分之一為平均值等等根據需求自由發揮

import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
from wordcloud import WordCloud
from scipy.misc import imread
from imageio import imread
import jieba
from pylab import mpl

# 使用matplotlib能夠顯示中文
mpl.rcParams['font.sans-serif'] = ['SimHei']  # 指定預設字型
mpl.rcParams['axes.unicode_minus'] = False  # 解決儲存影象是負號'-'顯示為方塊的問題
#  讀取資料
df = pd.read_csv('Python_development_engineer.csv', encoding='utf-8')

# 進行資料清洗,過濾掉實習崗位
# df.drop(df[df['職位名稱'].str.contains('實習')].index, inplace=True)
# print(df.describe())


# 由於csv檔案中的字元是字串形式,先用正則表示式將字串轉化為列表,在去區間的均值
pattern = '\d+'
# print(df['工作經驗'], '\n\n\n')
# print(df['工作經驗'].str.findall(pattern))
df['工作年限'] = df['工作經驗'].str.findall(pattern)
print(type(df['工作年限']), '\n\n\n')
avg_work_year = []
count = 0
for i in df['工作年限']:
    # print('每個職位對應的工作年限',i)
    # 如果工作經驗為'不限'或'應屆畢業生',那麼匹配值為空,工作年限為0
    if len(i) == 0:
        avg_work_year.append(0)
        # print('nihao')
        count += 1
    # 如果匹配值為一個數值,那麼返回該數值
    elif len(i) == 1:
        # print('hello world')
        avg_work_year.append(int(''.join(i)))
        count += 1
    # 如果匹配為一個區間則取平均值
    else:
        num_list = [int(j) for j in i]
        avg_year = sum(num_list) / 2
        avg_work_year.append(avg_year)
        count += 1
print(count)
df['avg_work_year'] = avg_work_year
# 將字串轉化為列表,薪資取最低值加上區間值得25%,比較貼近現實
df['salary'] = df['薪資'].str.findall(pattern)
#
avg_salary_list = []
for k in df['salary']:
    int_list = [int(n) for n in k]
    avg_salary = int_list[0] + (int_list[1] - int_list[0]) / 4
    avg_salary_list.append(avg_salary)
df['月薪'] = avg_salary_list
# df.to_csv('python.csv', index=False)

四、資料視覺化展示

下面是對資料的視覺化展示,僅以部分檢視進行一些視覺化的展示,如果讀者想對其他欄位做一些展示以及想使用不同的檢視型別進行展示,請自行發揮,注:以下程式碼中引入的模組見最後的完整程式碼

1、繪製python薪資的頻率直方圖並儲存

如果我們想看看關於網際網路行業python工程師相關的崗位大家普遍薪資的一個分部區間在哪個範圍,佔據了多達的比例我們就可以藉助matplotlib庫,來將我們儲存在csv檔案中的資料進行視覺化的展示,然我們能夠更直觀的看到資料的一個分部趨勢

# 繪製python薪資的頻率直方圖並儲存
plt.hist(df['月薪'],bins=8,facecolor='#ff6700',edgecolor='blue')  # bins是預設的條形數目
plt.xlabel('薪資(單位/千元)')
plt.ylabel('頻數/頻率')
plt.title('python薪資直方圖')
plt.savefig('python薪資分佈.jpg')
plt.show()

執行結果如下:

2、繪製python相關職位的地理位置餅狀圖

通過地理python職位地理位置的分部我們可以大致瞭解IT行業主要集中分部在哪些城市,這樣也更利於我們選擇地域進行選擇性就業,可以獲得更多的面試機會等,引數可自行除錯,或根據需要新增。

# 繪製餅狀圖並儲存
city = df['城市'].value_counts()
print(type(city))
# print(len(city))
label = city.keys()
print(label)
city_list = []
count = 0
n = 1
distance = []
for i in city:

    city_list.append(i)
    print('列表長度', len(city_list))
    count += 1
    if count > 5:
        n += 0.1
        distance.append(n)
    else:
        distance.append(0)
plt.pie(city_list, labels=label, labeldistance=1.2, autopct='%2.1f%%', pctdistance=0.6, shadow=True, explode=distance)
plt.axis('equal')  # 使餅圖為正圓形
plt.legend(loc='upper left', bbox_to_anchor=(-0.1, 1))
plt.savefig('python地理位置分佈圖.jpg')
plt.show()

執行結果如下:

3、繪製基於pyechart的城市分佈柱狀圖

pycharts是python中呼叫百度基於js開發的echarts介面,也可以對資料進行各種視覺化操作,更多資料視覺化圖形展示,可參考echarts官網:https://www.echartsjs.com/,echarts官網提供了各種例項供我們參考,如折線圖、柱狀圖、餅圖、路徑圖、樹圖等等,基於pyecharts的文件可參考以下官網:https://pyecharts.org/#/,更多用法也可自行百度網路資源

city = df['城市'].value_counts()
print(type(city))
print(city)
# print(len(city))

keys = city.index  # 等價於keys = city.keys()
values = city.values
from pyecharts import Bar

bar = Bar("python職位的城市分佈圖")
bar.add("城市", keys, values)
bar.print_echarts_options()  # 該行只為了列印配置項,方便除錯時使用
bar.render(path='a.html')

執行結果如下:

 

4、繪製python福利相關的詞雲

詞雲圖又叫文字雲,是對文字資料中出現頻率較高的關鍵詞予以視覺上的突出,形成"關鍵詞的渲染"就類似雲一樣的彩色圖片,從而過濾掉大量的文字資訊,,使人一眼就可以領略文字資料的主要表達意思。利用jieba分詞和詞雲生成WorldCloud(可自定義背景),下面就是對python相關職位的福利做了一個詞雲的展示,可以更直觀的看到大多數公司的福利待遇集中在哪些地方

# 繪製福利待遇的詞雲
text = ''
for line in df['公司福利']:
    if len(eval(line)) == 0:
        continue
    else:
        for word in eval(line):
            # print(word)
            text += word

cut_word = ','.join(jieba.cut(text))
word_background = imread('公主.jpg')
cloud = WordCloud(
    font_path=r'C:\Windows\Fonts\simfang.ttf',
    background_color='black',
    mask=word_background,
    max_words=500,
    max_font_size=100,
    width=400,
    height=800

)
word_cloud = cloud.generate(cut_word)
word_cloud.to_file('福利待遇詞雲.png')
plt.imshow(word_cloud)
plt.axis('off')
plt.show()

執行結果如下:

五、爬蟲及視覺化完整程式碼

完整程式碼在下面,程式碼均測試可正常執行,感興趣的小夥伴可去嘗試和了解其中的使用方法,如執行或者模組安裝等失敗可以在評論區進行留言,讓我們一同解決吧

如果你覺得對你有幫助可以點個贊哦,原創內容轉載需說明出處!!!

1、爬蟲完整程式碼

為了防止我們頻繁請求一個網站被限制ip,我們在爬取每一頁後選擇睡一段時間,當然你也可以使用代理等其他方式自行實現

import requests
import math
import time
import pandas as pd


def get_json(url, num):
    """
    從指定的url中通過requests請求攜帶請求頭和請求體獲取網頁中的資訊,
    :return:
    """
    url1 = 'https://www.lagou.com/jobs/list_python%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88?labelWords=&fromSearch=true&suginput='
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
        'Host': 'www.lagou.com',
        'Referer': 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput=',
        'X-Anit-Forge-Code': '0',
        'X-Anit-Forge-Token': 'None',
        'X-Requested-With': 'XMLHttpRequest'
    }
    data = {
        'first': 'true',
        'pn': num,
        'kd': 'python工程師'}
    s = requests.Session()
    print('建立session:', s, '\n\n')
    s.get(url=url1, headers=headers, timeout=3)
    cookie = s.cookies
    print('獲取cookie:', cookie, '\n\n')
    res = requests.post(url, headers=headers, data=data, cookies=cookie, timeout=3)
    res.raise_for_status()
    res.encoding = 'utf-8'
    page_data = res.json()
    print('請求響應結果:', page_data, '\n\n')
    return page_data


def get_page_num(count):
    """
    計算要抓取的頁數,通過在拉勾網輸入關鍵字資訊,可以發現最多顯示30頁資訊,每頁最多顯示15個職位資訊
    :return:
    """
    page_num = math.ceil(count / 15)
    if page_num > 30:
        return 30
    else:
        return page_num


def get_page_info(jobs_list):
    """
    獲取職位
    :param jobs_list:
    :return:
    """
    page_info_list = []
    for i in jobs_list:  # 迴圈每一頁所有職位資訊
        job_info = []
        job_info.append(i['companyFullName'])
        job_info.append(i['companyShortName'])
        job_info.append(i['companySize'])
        job_info.append(i['financeStage'])
        job_info.append(i['district'])
        job_info.append(i['positionName'])
        job_info.append(i['workYear'])
        job_info.append(i['education'])
        job_info.append(i['salary'])
        job_info.append(i['positionAdvantage'])
        job_info.append(i['industryField'])
        job_info.append(i['firstType'])
        job_info.append(i['companyLabelList'])
        job_info.append(i['secondType'])
        job_info.append(i['city'])
        page_info_list.append(job_info)
    return page_info_list


def main():
    url = ' https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
    first_page = get_json(url, 1)
    total_page_count = first_page['content']['positionResult']['totalCount']
    num = get_page_num(total_page_count)
    total_info = []
    time.sleep(10)
    print("python開發相關職位總數:{},總頁數為:{}".format(total_page_count, num))
    for num in range(1, num + 1):
        # 獲取每一頁的職位相關的資訊
        page_data = get_json(url, num)  # 獲取響應json
        jobs_list = page_data['content']['positionResult']['result']  # 獲取每頁的所有python相關的職位資訊
        page_info = get_page_info(jobs_list)
        print("每一頁python相關的職位資訊:%s" % page_info, '\n\n')
        total_info += page_info
        print('已經爬取到第{}頁,職位總數為{}'.format(num, len(total_info)))
        time.sleep(20)
        # 將總資料轉化為data frame再輸出,然後在寫入到csv各式的檔案中
        df = pd.DataFrame(data=total_info,
                          columns=['公司全名', '公司簡稱', '公司規模', '融資階段', '區域', '職位名稱', '工作經驗', '學歷要求', '薪資', '職位福利', '經營範圍',
                                   '職位型別', '公司福利', '第二職位型別', '城市'])
        # df.to_csv('Python_development_engineer.csv', index=False)
        print('python相關職位資訊已儲存')


if __name__ == '__main__':
    main()

2、視覺化完整程式碼

資料視覺化涉及到matplotlib、jieba、wordcloud、pyecharts、pylab、scipy等等模組的使用,讀者可以自行了解各個模組的使用方法,和其中涉及的各種引數

import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
from wordcloud import WordCloud
from scipy.misc import imread
# from imageio import imread
import jieba
from pylab import mpl

# 使用matplotlib能夠顯示中文
mpl.rcParams['font.sans-serif'] = ['SimHei']  # 指定預設字型
mpl.rcParams['axes.unicode_minus'] = False  # 解決儲存影象是負號'-'顯示為方塊的問題
#  讀取資料
df = pd.read_csv('Python_development_engineer.csv', encoding='utf-8')

# 進行資料清洗,過濾掉實習崗位
# df.drop(df[df['職位名稱'].str.contains('實習')].index, inplace=True)
# print(df.describe())


# 由於csv檔案中的字元是字串形式,先用正則表示式將字串轉化為列表,在去區間的均值
pattern = '\d+'
# print(df['工作經驗'], '\n\n\n')
# print(df['工作經驗'].str.findall(pattern))
df['工作年限'] = df['工作經驗'].str.findall(pattern)
print(type(df['工作年限']), '\n\n\n')
avg_work_year = []
count = 0
for i in df['工作年限']:
    # print('每個職位對應的工作年限',i)
    # 如果工作經驗為'不限'或'應屆畢業生',那麼匹配值為空,工作年限為0
    if len(i) == 0:
        avg_work_year.append(0)
        # print('nihao')
        count += 1
    # 如果匹配值為一個數值,那麼返回該數值
    elif len(i) == 1:
        # print('hello world')
        avg_work_year.append(int(''.join(i)))
        count += 1
    # 如果匹配為一個區間則取平均值
    else:
        num_list = [int(j) for j in i]
        avg_year = sum(num_list) / 2
        avg_work_year.append(avg_year)
        count += 1
print(count)
df['avg_work_year'] = avg_work_year
# 將字串轉化為列表,薪資取最低值加上區間值得25%,比較貼近現實
df['salary'] = df['薪資'].str.findall(pattern)
#
avg_salary_list = []
for k in df['salary']:
    int_list = [int(n) for n in k]
    avg_salary = int_list[0] + (int_list[1] - int_list[0]) / 4
    avg_salary_list.append(avg_salary)
df['月薪'] = avg_salary_list
# df.to_csv('python.csv', index=False)


"""1、繪製python薪資的頻率直方圖並儲存"""
plt.hist(df['月薪'], bins=8, facecolor='#ff6700', edgecolor='blue')  # bins是預設的條形數目
plt.xlabel('薪資(單位/千元)')
plt.ylabel('頻數/頻率')
plt.title('python薪資直方圖')
plt.savefig('python薪資分佈.jpg')
plt.show()

"""2、繪製餅狀圖並儲存"""
city = df['城市'].value_counts()
print(type(city))
# print(len(city))
label = city.keys()
print(label)
city_list = []
count = 0
n = 1
distance = []
for i in city:

    city_list.append(i)
    print('列表長度', len(city_list))
    count += 1
    if count > 5:
        n += 0.1
        distance.append(n)
    else:
        distance.append(0)
plt.pie(city_list, labels=label, labeldistance=1.2, autopct='%2.1f%%', pctdistance=0.6, shadow=True, explode=distance)
plt.axis('equal')  # 使餅圖為正圓形
plt.legend(loc='upper left', bbox_to_anchor=(-0.1, 1))
plt.savefig('python地理位置分佈圖.jpg')
plt.show()

"""3、繪製福利待遇的詞雲"""
text = ''
for line in df['公司福利']:
    if len(eval(line)) == 0:
        continue
    else:
        for word in eval(line):
            # print(word)
            text += word

cut_word = ','.join(jieba.cut(text))
word_background = imread('公主.jpg')
cloud = WordCloud(
    font_path=r'C:\Windows\Fonts\simfang.ttf',
    background_color='black',
    mask=word_background,
    max_words=500,
    max_font_size=100,
    width=400,
    height=800

)
word_cloud = cloud.generate(cut_word)
word_cloud.to_file('福利待遇詞雲.png')
plt.imshow(word_cloud)
plt.axis('off')
plt.show()

"""4、基於pyechart的柱狀圖"""
city = df['城市'].value_counts()
print(type(city))
print(city)
# print(len(city))

keys = city.index  # 等價於keys = city.keys()
values = city.values
from pyecharts import Bar

bar = Bar("python職位的城市分佈圖")
bar.add("城市", keys, values)
bar.print_echarts_options()  # 該行只為了列印配置項,方便除錯時使用
bar.render(path='a.html')