用Python爬取拉鉤網招聘職位資訊

阿新 • • 發佈：2019-02-10

本文實現自動爬取拉鉤網招聘資訊，並將爬取結果儲存在本地文字中（也可以將資料存入資料庫）

使用到的Python模組包（Python3）：
1.urllib.request
2.urllib.parse
3.json

簡單分析：
1.在向伺服器傳送請求，需要傳入post引數
這裡寫圖片描述
2.搜尋的職位列表資訊存在一個josn檔案中，可使用json模組解析

3.翻頁
本文使用while True和break結合，根據json中result的值是否為空來判斷當前要是否是最後一頁，也可以根據json檔案中pageSize和totalCount兩個欄位的值得出總的頁面數。

完整程式碼：

import 
 urllib.request
import urllib.parse
import json

def open_url(url,page_num,keywords):
    try:
        #設定post請求引數
        page_data=urllib.parse.urlencode([
                                   ('pn',page_num),
                                   ('kd',keywords)
                                   ])
        #設定headers 

        page_headers={
          'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0',
          'Connection':'keep-alive',
          'Host':'www.lagou.com',
          'Origin':'https://www.lagou.com',
          'Cookie' 
:'JSESSIONID=ABAAABAABEEAAJA8F28C00A88DC4D771796BB5C6FFA2DDA; user_trace_token=20170715131136-d58c1f22f6434e9992fc0b35819a572b; LGUID=20170715131136-13c54b92-691c-11e7-893a-525400f775ce; index_location_city=%E5%8C%97%E4%BA%AC; _gat=1; TG-TRACK-CODE=index_search; _gid=GA1.2.496231841.1500095497; _ga=GA1.2.1592435732.1500095497; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1500095497; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1500104021; LGSID=20170715143221-5b993c04-6927-11e7-a985-5254005c3644; LGRID=20170715153341-ec8dbfd2-692f-11e7-a989-5254005c3644; SEARCH_ID=d27de6042bdf4d508cf9b39616a98a0d',
          'Accept':'application/json, text/javascript, */*; q=0.01',
          'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
          'Referer':'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98?labelWords=&fromSearch=true&suginput=',
          'X-Anit-Forge-Token':'None',
          'X-Requested-With':'XMLHttpRequest'
          }
        #開啟網頁
        req=urllib.request.Request(url,headers=page_headers)
        content=urllib.request.urlopen(req,data=page_data.encode('utf-8')).read().decode('utf-8')
        return content
    except Exception as e:
        print(str(e))

#獲取招聘職位資訊
def get_position(url,page_num):
    try:
        page_content=open_url(url,page_num,keywords)
        data=json.loads(page_content)
        content=data.get('content')
        result=[('positionId','職位ID'),('positionName','職位名稱'),('salary','薪資'),('createTime','釋出時間'),('workYear','工作經驗'),('education','學歷'),('positionLables','職位標籤'),('jobNature','職位型別'),('firstType','職位大類'),('secondType','職位細類'),('positionAdvantage','職位優勢'),('city','城市'),('district','行政區'),('businessZones','商圈'),('publisherId','釋出人ID'),('companyId','公司ID'),('companyFullName','公司名'),('companyShortName','公司簡稱'),('companyLabelList','公司標籤'),('companySize','公司規模'),('financeStage','融資階段'),('industryField','企業領域'),('industryLables','企業標籤')]
        positionResult=content.get('positionResult').get('result')
        if(len(positionResult)>0):
            for position in positionResult:
                with open("position.txt",'a') as fh:
                    fh.write("---------------------------\n")
                for r in result:
                    with open("position.txt",'a') as fh:
                        fh.write(str(r[1])+":"+str(position.get(r[0]))+"\n")
        return len(positionResult)
    except Exception as e:
        print(str(e))

#爬取拉勾網招聘職位資訊
if __name__=="__main__":
    #爬取起始頁
    url='https://www.lagou.com/jobs/positionAjax.json?city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false'
    #設定查詢的關鍵詞
    keywords="資料探勘"
    page_num=1
    while True:
        print("正在爬取第"+str(page_num)+"頁......")
        result_len=get_position(url,page_num)
        if(result_len>0):
            page_num+=1
        else:
            break
    print("爬取完成")

爬取結果：

這裡寫圖片描述

用Python爬取拉鉤網招聘職位資訊

本文實現自動爬取拉鉤網招聘資訊，並將爬取結果儲存在本地文字中（也可以將資料存入資料庫）使用到的Python模組包（Python3）： 1.urllib.request 2.urllib.parse 3.json 簡單分析： 1.在向伺服器傳送請求，

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

python爬取拉鉤網招聘資訊

拉鉤網網址為：https://www.lagou.com/點選F12進入控制檯觀察結構，發現所有的招聘內容都在此json檔案中：注意headers中的請求url以及請求方法：還有表單資料：獲取以上資訊後，基本就可以開始爬取工作，注意，拉鉤網有反爬機制，所以需要使用cookie

Python爬取拉勾網招聘資訊存入資料庫

先抓包分析我們想要獲取的資料，很明顯都是動態資料，所以直接到Network下的XHR裡去找，這裡我們找到具體資料後，就要去尋分析求地址與請求資訊了。還有需要提交的表單資訊分析完畢之後，我們就可以開始寫我們的爬蟲專案了。一.編寫Itemitem編寫比較簡單# 拉鉤職位資訊 cl

Python爬取拉勾網招聘資訊

此程式碼執行建議Python3，省卻中文編碼的麻煩遇到的幾個問題：（1）拉鉤網的資料是通過js的ajax動態生成，所以不能直接爬取，而是通過post’http://www.lagou.com/jobs/positionAjax.json?needAddt

Python爬取拉勾網招聘資訊並可視化分析

需求: 1:獲取指定崗位的招聘資訊 2:對公司地區,公司待遇,學歷情況,工作經驗進行簡單分析並可視化展示視覺化分析: 公司地區:柱狀圖,地圖公司待遇:雲圖公司-學歷情況:餅圖公司工作經

python爬取拉鉤網資料

import requests import re#引用正則匹配 from bs4 import BeautifulSoup headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A

Python scrapy 爬取拉勾網招聘資訊

週末折騰了好久，終於成功把拉鉤網的招聘資訊爬取下來了。現在總結一下！環境： windows 8.1 + python 3.5.0 首先使用 scrapy 建立一個專案： E:\mypy> scrapy startproject lgjob 建立後目錄結構：

根據搜尋內容爬取拉鉤網和招聘網的職位招聘資訊

程式碼：import requests import time import random ip_list = ['117.135.132.107', '121.8.98.196', '194.116.198.212'] #http請求頭資訊 headers={ 'Ac

簡單python爬蟲爬取拉鉤網

因為個人需求，爬取了拉鉤網資料探勘相關職位的資料首先先進入到拉鉤的首頁，搜尋資料探勘，得到相關職位的列表，按F12，檢視網路檢視html，可以看到職位列表並不在html所以肯定是通過XHR非同步載入的，再切換到XHR，可以找到4個，點開檢視，可以看到在一個請求中有我們需要的資

ruby 爬蟲爬取拉鉤網職位信息，產生詞雲報告

content 數據持久化 lag works wid spa 代碼職位要求思路：1.獲取拉勾網搜索到職位的頁數　　 2.調用接口獲取職位id 　　 3.根據職位id訪問頁面，匹配出關鍵字　　 url訪問采用unirest，由於拉鉤反爬蟲，短時間內頻繁訪問會被

selelinum+PhantomJS 爬取拉鉤網職位

one while 對象 bili exe 5.0 設置 expect money 使用selenium+PhantomJS爬取拉鉤網職位信息，保存在csv文件至本地磁盤拉鉤網的職位頁面，點擊下一頁，職位信息加載，但是瀏覽器的url的不變，說明數據不是發送get請求得到的

HttpClient爬取拉勾網招聘資訊

1.匯入jar包 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>htt

python爬取拉勾網之selenium

重點程式碼解釋： 1.呼叫lxml的etree實現xpath方法呼叫，xpath相對正則比較簡單，可以不在使用Beauitfulsoup定位 from lxml import etree 2.介面的可視話與否，對於你的執行資源只能用減少 opt=webdri

python爬取拉勾網網際網路大資料職業情況

爬取拉勾網資訊資料處理製圖所需知識只有一點點（畢竟是個小白）： requests基礎部分 json pyecharts wordcloud 接下來開始敲程式碼了，程式碼分成了3個部分：爬取、製圖、生成詞雲爬取部分：首先要說明的是，拉勾網有反爬

Python 爬取拉鉤

... from urllib import request from urllib import parse from urllib.error import URLError import json import math import pymongo MONGO_URL='localhost'

python爬取拉勾網資料儲存到mysql資料庫

環境:python3 相關包:requests , json , pymysql 思路:1.通過chrome F12找到拉鉤請求介面,分析request的各項引數 2.模擬瀏覽器請求拉鉤介面 3.預設返回的json不是標準格式 ,

Python爬取拉勾網資料(破解反爬蟲機制)

人生苦短, 我學 Python! 這篇文章主要記錄一下我學習 Python 爬蟲的一個小例子, 是爬取的拉勾網的資料. 1.準備配置 Python 環境什麼的就不說了, 網上教程很多, 自行解決. 2.扒原始碼先開啟拉勾網的網頁. 我們要爬取這部分的資料

Scrapy爬取拉鉤網的爬蟲（爬取整站CrawlSpider）

經過我的測試，拉鉤網是一個不能直接進行爬取的網站，由於我的上一個網站是扒的介面，所以這次我使用的是scrapy的整站爬取，貼上當時的程式碼（程式碼是我買的視訊裡面的，但是當時是不需要登陸就可以爬取的）： class LagouSpider(CrawlSpider):

python爬取拉勾網資料並進行資料視覺化

爬取拉勾網關於python職位相關的資料資訊，並將爬取的資料已csv各式存入檔案，然後對csv檔案相關欄位的資料進行清洗，並對資料視覺化展示，包括柱狀圖展示、直方圖展示、詞雲展示等並根據視覺化的資料做進一步的分析，其餘分析和展示讀者可自行發揮和擴充套件包括各種分析和不同的儲存方式等。。。。。一、爬取和分析

用Python爬取拉鉤網招聘職位資訊

相關推薦