python爬取招聘要求等資訊例項

阿新 • • 發佈：2020-11-23

在我們人生的路途中，找工作是每個人都會經歷的階段，小編曾經也是苦苦求職大軍中的一員。懷著對以後的規劃和想象，我們在找工作的時候，會看一些招聘資訊，然後從中挑選合適的崗位。不過招聘的崗位每個公司都有不少的需求，我們如何從中獲取資料，來進行鍼對崗位方面的查詢呢？

大致流程如下：

1.從程式碼中取出pid

2.根據pid拼接網址 => 得到 detail_url，使用requests.get，防止爬蟲掛掉，一旦發現爬取的detail重複，就重新啟動爬蟲

3.根據detail_url獲取網頁html資訊 => requests - > html，使用BeautifulSoup

若爬取太快，就等著解封

if html.status_code!=200 print('status_code if {}'.format(html.status_code))

4.根據html得到soup => soup

5.從soup中獲取特定元素內容 => 崗位資訊

6.儲存資料到MongoDB中

程式碼：

# @author： limingxuan 
# @contect： [email protected]
# @blog： https://www.jianshu.com/p/a5907362ba72
# @time： 2018-07-21
import requests
from bs4 import BeautifulSoup
import time
from pymongo import MongoClient
headers = {  
  'accept': "application/json,text/javascript,*/*; q=0.01",'accept-encoding': "gzip,deflate,br",'accept-language': "zh-CN,zh;q=0.9,en;q=0.8",'content-type': "application/x-www-form-urlencoded; charset=UTF-8",'cookie': "JSESSIONID=""; __c=1530137184; sid=sem_pz_bdpc_dasou_title; __g=sem_pz_bdpc_dasou_title; __l=r=https%3A%2F%2Fwww.zhipin.com%2Fgongsi%2F5189f3fadb73e42f1HN40t8~.html&l=%2Fwww.zhipin.com%2Fgongsir%2F5189f3fadb73e42f1HN40t8~.html%3Fka%3Dcompany-jobs&g=%2Fwww.zhipin.com%2F%3Fsid%3Dsem_pz_bdpc_dasou_title; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1531150234,1531231870,1531573701,1531741316; lastCity=101010100; toUrl=https%3A%2F%2Fwww.zhipin.com%2Fjob_detail%2F%3Fquery%3Dpython%26scity%3D101010100; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1531743361; __a=26651524.1530136298.1530136298.1530137184.286.2.285.199",'origin': "https://www.zhipin.com",'referer': "https://www.zhipin.com/job_detail/?query=python&scity=101010100",'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/67.0.3396.99 Safari/537.36"
  }
conn = MongoClient('127.0.0.1',27017)
db = conn.zhipin_jobs
def init():
  items = db.Python_jobs.find().sort('pid')
  for item in items:
    if 'detial' in item.keys(): #當爬蟲掛掉時，跳過已爬取的頁
      continue
    detail_url = 'https://www.zhipin.com/job_detail/{}.html'.format(item['pid']) #單引號和雙引號相同，str.format()新格式化方式
    #第一階段順利打印出崗位頁面的url
    print(detail_url)
    #返回的html是 Response 類的結果
    html = requests.get(detail_url,headers = headers)
    if html.status_code != 200:
      print('status_code is {}'.format(html.status_code))
      break
    #返回值soup表示一個文件的全部內容（html.praser是html解析器）
    soup = BeautifulSoup(html.text,'html.parser')
    job = soup.select('.job-sec .text')
    print(job)
    #???
    if len(job)<1:
    item['detail'] = job[0].text.strip() #職位描述
    location = soup.select(".job-sec .job-location .location-address") 
    item['location'] = location[0].text.strip() #工作地點
    item['updated_at'] = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime()) #實時爬取時間
    #print(item['detail'])
    #print(item['location'])
    #print(item['updated_at'])
    res = save(item) #呼叫儲存資料結構
    print(res)
    time.sleep(40)#爬太快IP被封了24小時==
#儲存資料到MongoDB中
def save(item):
  return db.Python_jobs.update_one({'_id':item['_id']},{'$set':item}) #why item ???
   
# 儲存資料到MongoDB
     
if __name__ == '__main__':
  init()

最終結果就是在MongoBooster中看到新增了detail和location的資料內容

python爬取招聘要求等資訊例項

到此這篇關於python爬取招聘要求等資訊例項的文章就介紹到這了,更多相關python爬蟲獲取招聘要求的程式碼內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

python爬取招聘要求等資訊例項

在我們人生的路途中，找工作是每個人都會經歷的階段，小編曾經也是苦苦求職大軍中的一員。懷著對以後的規劃和想象，我們在找工作的時候，會看一些招聘資訊，然後從中挑選合適的崗位。不過招聘的崗位每個公司都有不少

使用Python爬取彈出視窗資訊的例項

此文僅當學習筆記用. 這個例項是在Python環境下如何爬取彈出視窗的內容,有些時候我們要在頁面中通過點選,然後在彈出視窗中才有我們要的資訊,所以平常用的方法也許不行.

Python爬取招聘網資訊

1、資料來源：職友集 2、程式碼 import requests import openpyxl import time from bs4 import BeautifulSoup #用於解析和提取網頁資料的

Python 爬取必應桌布的例項講解

最近看了下python，就想著獲取下bing的圖片，每天定時爬取，儲存到本地，可以做背景圖片用。也在網上看了一些其他的例子。就自己動手寫了一個小的爬圖片的python指令碼。

Python爬取阿拉丁統計資訊過程圖解

背景目前專案在移動端上，首推使用微信小程式。各專案的小程式訪問資料有必要進行採集入庫，方便後續做統計分析。雖然阿拉丁後臺也提供了趨勢分析等功能，但一個個的獲取資料做資料分析是很痛苦的事情。通過將資料轉

python爬取12306的車次資訊

詳情檢視下面的程式碼：如果被識別就要新增一個cookie如果沒有被識別的話就要一個user—agent就好了。如果出現亂碼就設定編碼格式為utf-8

Python爬取豆瓣Top250電影資訊

1、爬取豆瓣Top250電影資訊以文字形式儲存資料：豆瓣電影 2、程式碼 import requests

Python爬取招聘網站資料並做資料視覺化處理

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

python爬取微博評論的例項講解

python爬蟲是程式設計師們一定會掌握的知識，練習python爬蟲時，很多人會選擇爬取微博練手。python爬蟲微博根據微博存在於不同媒介上，所爬取的難度有差異，無論是python新入手的小白，還是已經熟練掌握的程式設計師

python爬取抖音視訊的例項分析

現在抖音的火爆程度，大家都是有目共睹的吧，之前小編在網路上發現好玩的事情，就是去爬取一些網站，因此，也考慮能否進行抖音上的破案去，在實際操作以後，真的實現出來了，利用自動化工具，就可以輕鬆實現了，後有

Python爬取淘寶商品資訊寫入mysql

直接上程式碼：（商品名稱、單價、圖片連結） import pymysql import requests import re

python爬取部落格園資訊用於歸檔--excel篇

之所以要寫程式碼進行爬取，是因為我太懶了，嗚嗚嗚，如果能天天躺著刷手機誰會打程式碼~~

利用python爬取全國水雨情資訊

分析我們沒有找到介面，所以打算利用selenium來爬取。程式碼 import datetime import pandas as pd

Python爬取京東手機評論資訊

程式碼如下： 1 # coding=\'utf-8\' 2 import requests 3 import json 4 import time 5 import random 6 import xlwt

Python爬取愛奇藝電影資訊程式碼例項

這篇文章主要介紹了Python爬取愛奇藝電影資訊程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬取豆瓣視訊資訊程式碼例項

這篇文章主要介紹了Python爬取豆瓣視訊資訊程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python通過正則庫爬取淘寶商品資訊程式碼例項

使用正則庫爬取淘寶商品的商品資訊，首先我們需要確定想要爬取的物件我們在淘寶裡搜尋“python”,出來的結果

python 爬取位元組內推招聘資訊

　　今天收到一個任務，用 python 爬取招聘網站資訊。招聘網址是這個：https://job.toutiao.com/s/JNcJSRo。開啟之後自動跳轉到了這裡：https://job.bytedance.com/referral/pc/position?token=MzsxNTk0NDQzMDMxOTkz

利用 Python 爬取了 13966 條運維招聘資訊，看看你是否符合招聘資訊！

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

用 Python 爬取網易嚴選妹子內衣資訊，探究妹紙們的偏好

今天繼續來分析爬蟲資料分析文章，一起來看看網易嚴選商品評論的獲取和分析。

python爬取招聘要求等資訊例項

相關推薦