Python爬Boss，找工作，快人一步！！！

阿新 • • 發佈：2020-09-12

通過職位搜尋"Python開發"，看下搜尋的結果：

https://www.zhipin.com/job_detail/?query=python開發&city=101020100&industry=&position=

按F12，使用開發者工具檢視下html的結構：

先獲取所有的class="job-primary"的div列表，然後遍歷列表物件，在子查詢裡面的各個需要的資訊。

職位需求資訊如下：

公司資訊：

先建立資料庫，儲存爬取的資訊

create table boss_job(
    jid varchar(50) primary key,
    name varchar(50) not null,
    sal varchar(20),
    addr varchar(50),
    work_year varchar(20),
    edu varchar(20),
    company varchar(40),
    company_type varchar(20),
    company_staff varchar(20),
    url varchar(200)
)engine=innodb default charset=utf-8

boss直聘需要帶上cookies，不然無法正常返回，會訪問到一個請稍後的頁面。

爬取庫使用BeautifulSoup4。

#-*- coding: UTF-8 -*-
import requests,pymysql
from bs4 import BeautifulSoup
 
def get_one_page_info(kw,page):
    '''獲取第page的資料，搜尋關鍵字kw'''
    url="https://www.zhipin.com/c101020100/?query="+kw+"&page="+str(page)+"&ka=page-"+str(page)
    cookies={
        "lastCity":"101020100",
        "_uab_collina":"156594127160811552815566",
        "sid":"sem_pz_bdpc_dasou_title",
        "__c":"1566178735",
        "__g":"sem_pz_bdpc_dasou_title",
        "__l":"l=%2Fwww.zhipin.com%2F%3Fsid%3Dsem_pz_bdpc_dasou_title&r=https%3A%2F%2Fsp0.baidu.com%2F9q9JcDHa2gU2pMbgoY3K%2Fadrc.php%3Ft%3D06KL00c00fDIFkY0IWPB0KZEgsA_ON-I00000Kd7ZNC00000Irp6hc.THdBULP1doZA80K85yF9pywdpAqVuNqsusK15yRLPH6zuW-9nj04nhRLuhR0IHYYn1mzwW9AwHIawWmdrRN7P1-7fHN7wjK7nRNDfW6Lf6K95gTqFhdWpyfqn1czPjmsPjnYrausThqbpyfqnHm0uHdCIZwsT1CEQLILIz4lpA-spy38mvqVQ1q1pyfqTvNVgLKlgvFbTAPxuA71ULNxIA-YUAR0mLFW5Hfsrj6v%26tpl%3Dtpl_11534_19713_15764%26l%3D1511867677%26attach%3Dlocation%253D%2526linkName%253D%2525E6%2525A0%252587%2525E5%252587%252586%2525E5%2525A4%2525B4%2525E9%252583%2525A8-%2525E6%2525A0%252587%2525E9%2525A2%252598-%2525E4%2525B8%2525BB%2525E6%2525A0%252587%2525E9%2525A2%252598%2526linkText%253DBoss%2525E7%25259B%2525B4%2525E8%252581%252598%2525E2%252580%252594%2525E2%252580%252594%2525E6%252589%2525BE%2525E5%2525B7%2525A5%2525E4%2525BD%25259C%2525EF%2525BC%25258C%2525E6%252588%252591%2525E8%2525A6%252581%2525E8%2525B7%25259F%2525E8%252580%252581%2525E6%25259D%2525BF%2525E8%2525B0%252588%2525EF%2525BC%252581%2526xp%253Did(%252522m3224604348_canvas%252522)%25252FDIV%25255B1%25255D%25252FDIV%25255B1%25255D%25252FDIV%25255B1%25255D%25252FDIV%25255B1%25255D%25252FDIV%25255B1%25255D%25252FH2%25255B1%25255D%25252FA%25255B1%25255D%2526linkType%253D%2526checksum%253D8%26wd%3Dboss%25E7%259B%25B4%25E8%2581%2598%26issp%3D1%26f%3D8%26ie%3Dutf-8%26rqlang%3Dcn%26tn%3Dbaiduhome_pg%26sug%3Dboss%2525E7%25259B%2525B4%2525E8%252581%252598%2525E5%2525AE%252598%2525E7%2525BD%252591%26inputT%3D4829&g=%2Fwww.zhipin.com%2F%3Fsid%3Dsem_pz_bdpc_dasou_title",
        "Hm_lvt_194df3105ad7148dcf2b98a91b5e727a":"1565941272,1566178735",
        "__zp_stoken__":"c839%2FbUp4y%2FcG59Q1lQU84czePIXK3dDRi%2F3AGRWQ6KVQWUNKQa4lxpn2jAVyXKDRxk0g3H19loBTLIK4KtUfLuxbQ%3D%3D",
        "__a":"74852898.1565941271.1565941271.1566178735.32.2.3.3",
        "Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a":"1566178748",
    }
    headers={
        "user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",
        "referer":"https://www.zhipin.com/c101020100/?query=python%E5%BC%80%E5%8F%91&page=1&ka=page-1"
    }
    r= requests.get(url,headers=headers,cookies=cookies)
    soup=BeautifulSoup(r.text,"lxml")
    # 先獲取每一行的列表資料
    all_jobs=soup.select("div.job-primary")
    infos=[]
    for job in all_jobs:
        jnama=job.find("div",attrs={"class":"job-title"}).text
        jurl="https://www.zhipin.com"+job.find("div",attrs={"class":"info-primary"}).h3.a.attrs['href']
        jid=job.find("div",attrs={"class":"info-primary"}).h3.a.attrs['data-jid']
        sal=job.find("div",attrs={"class":"info-primary"}).h3.a.span.text
        info_contents=job.find("div",attrs={"class":"info-primary"}).p.contents
        addr=info_contents[0]
        # 有的工作年薪是沒有的，有的是有四個的需要更具contents子節點的個數去判斷
        # <p>上海 靜安區 汶水路<em class="vline"></em>4天/周<em class="vline"></em>6個月<em class="vline"></em>大專</p>
        # contents裡面包含著文字和em標籤
        # print(info_contents)
        # ['上海 嘉定區 安亭', <em class="vline"></em>, '3-5年', <em class="vline"></em>, '大專']
        if len(info_contents)==3:
            work_year = "無資料"
            edu = job.find("div", attrs={"class": "info-primary"}).p.contents[2]
        elif len(info_contents)==5:
            work_year=job.find("div",attrs={"class":"info-primary"}).p.contents[2]
            edu=job.find("div",attrs={"class":"info-primary"}).p.contents[4]
        elif len(info_contents)==7:
            work_year = job.find("div", attrs={"class": "info-primary"}).p.contents[-3]
            edu = job.find("div", attrs={"class": "info-primary"}).p.contents[-1]
        company=job.find("div",attrs={"class":"company-text"}).h3.a.text
        company_type=job.find("div",attrs={"class":"company-text"}).p.contents[0]
        company_staff=job.find("div",attrs={"class":"company-text"}).p.contents[-1]
        print(jid,jnama,jurl,sal,addr,work_year,edu,company,company_type,company_staff)
        infos.append({
            "jid":jid,
            "name":jnama,
            "sal":sal,
            "addr":addr,
            "work_year":work_year,
            "edu":edu,
            "company":company,
            "company_type":company_type,
            "company_staff":company_staff,
            "url":jurl})
    print("%s職位資訊，第%d頁抓取完成"%(kw,page))
    return infos
def save_mysql(infos):
    '''儲存每一頁的資料到資料庫中'''
    db = pymysql.connect("localhost","root","123456","ai11",charset="utf8")
    cursor = db.cursor()
    for job in infos:
        sql = "insert into boss_job values('%(jid)s','%(name)s','%(sal)s','%(addr)s','%(work_year)s'\
        ,'%(edu)s','%(company)s','%(company_type)s','%(company_staff)s','%(url)s');"%(job)
        try:
            cursor.execute(sql)
        except pymysql.Error as e:
            print("資料庫出錯",e)
            db.rollback()
        else:
            db.commit()
 
 
for i in range(1,11):
    infos=get_one_page_info("python開發",i)
    save_mysql(infos)

結尾：歡迎加入我們一起學習

最後，拿起你的小手機，點贊收藏，加扣群，裡面有更多更好玩的資料原始碼分享。

正所謂，來者都是客，咳咳，不對，是你有一塊錢，我有一塊錢，我們合在一起就是兩塊錢，知識，是可以互相交流的^_^

Python爬Boss，找工作，快人一步！！！

通過職位搜尋"Python開發"，看下搜尋的結果： https://www.zhipin.com/job_detail/?query=python開發&city=101020100&industry=&position= 按F

網際網路寒冬下，找工作，切莫心急，小心騙子

相信很多找工作的朋友都因長時間找不到工作發慌，不過這個時候可要打起精神來，防止騙子亂入，入了騙子的坑事小，自身安全才是最大。下

Android P的APP適配總結，讓你快人一步

信息最新 webview 包名圖片 bmp illegal 名單 block 歡迎大家前往騰訊雲+社區，獲取更多騰訊海量技術實踐幹貨哦~ 本文由QQ音樂技術團隊發表於雲+社區專欄上篇：Android P 行為變更適配 Android P 這次有很多行為變更，其中不

一起來學大資料｜優秀的持久層框架Mybatis，連線資料庫快人一步

我們之前學習了JDBC和連線池之後，攻城獅們對程式設計的效率仍然不是很滿意。於是乎！有了今天更加優秀的內容，那就是Mybatis框架。它的出現解決了jdbc中的一些問題，提升了程式碼的魯棒性。我們一起來看一下吧~ 一起來學大資料｜Java與資料庫之間的連線JDBC

區塊鏈“超級節點”幫你快人一步，鏈上區塊

“超級節點”是區塊鏈平臺實現社群化運營的重要合作伙伴，其主要職責是為節點的有效執行提供必要的硬體資源，並參與區塊鏈平臺的業務開拓與構建，協助區塊鏈平臺對申請接入的業務專案進行專業的投票和點評，同時享受有關獎勵與收益。小魚區塊鏈“超級節點”，為區塊鏈平臺提供超

雲上領跑，快人一步：華為雲搶先發布Redis5.0

12月17日，華為雲在DCS2.0的基礎上，快人一步，搶先推出了新的Redis 5.0產品，這是一個嶄新的突破。目前國內在快取領域的發展普遍停留在Redis4.0階段，華為雲率先發布了Redis5.0，全面展現了華為雲在業界快取領域持續創新的實力。華為雲分散式快取Redis5.0攜Stream而來，以更快

用TC Games玩絕地求生：刺激戰場1秒極速啟動，讓你吃雞快人一步

tcgames 是一款無需安卓模擬器，也可以在電腦上用滑鼠鍵盤操作各種手遊的軟體。是現在最流行最受玩家歡迎的電腦玩手機遊戲軟體之一。受到很多玩家特別是絕地求生：刺激戰場和絕地求生：全軍出擊等吃雞玩家的歡迎。TC Games相比較傳統的安卓模擬器，TC Games電腦玩手機遊戲

2019電商新思路，跨境電商助你快人一步！ LL-YMX1

註意倉儲可能自己管理本地化會有屬於國際不論是做國內的電商平臺還是跨境電商，每個人的心裏都只有一個目標，那就是開個店鋪安心賺錢，而且每個平臺都限制每人只能開一個店鋪，但是方法很重要，在2019年店群模式成為了熱門，隨著店群模式的興起，加上部分電商平臺的門檻較

大四生找工作最慘的一次經歷吧！

找工作千萬不要相信任何的陌生人！！！！！！！不要太相信在群裡發的招聘資訊！！！！！！！！一人在外多留個心眼！！！！！！！！！我想了很久，我還是想讓我的朋友不要像我一樣被騙了，雖然他們沒騙到我一分錢，我還是有損失，損失了車費吧，下面我就講下我在成都這四

2018年讓你的技術學習快人一步！

新的一年新福利，推薦給大家幾個不同領域的公眾號，機器學習、自然語言處理、Python、Java架

Python學到了這個程度，找工作問題不大

我想有很多想學Python，或者是已經在學Python的小夥伴們一定都有一個疑問，Python學到什麼程度就可以去找工作，關於這點我只能分享個人的見解。確立目標、瞭解需求首先我們要先定位自己的目標，當然我們先以爬蟲工程師來做個說明。去招聘網上看看需求都有哪些

金三銀四科學找工作，用python大資料分析一線城市1000多份崗位招聘需求

文章每週持續更新，各位的「三連」是對我最大的肯定。可以微信搜尋公眾號「後端技術學堂」第一時間閱讀（一般比部落格早更新一到兩篇）每年的三四月份是招聘高峰，也常被大家稱為金三銀四黃金招聘期，這時候上一年的總結做完了，獎金拿到了，職場人開始謀劃著年初的找工作大戲，作為高薪行業之一的IT行業，程式設計師們也

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

我用 Python 爬取微信好友，最後發現一個大秘密

代碼我們同學 strong 分享簽名 ast ron tps 前言你身處的環境是什麽樣，你就會成為什麽樣的人。現在人們日常生活基本上離不開微信，但微信不單單是一個即時通訊軟件，微信更像是虛擬的現實世界。你所處的朋友圈是怎麽樣，慢慢你的思想也會變的怎麽樣。最近在學習

Python爬取全書網小說，免費看小說

tle 3.6 tro con fin 保存 get 正在 url地址什麽是網絡爬蟲網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自

分手後，小夥怒用Python爬取上萬空姐照片，贏取校花選舉大賽！

代碼美女圖片 pst caption alt .... 不出 ima bee 首先展示下Python爬取到的成果：我做什麽都要爭第一，這次的校花投票選舉大賽也不例外，雖然我是個男的......但是我看到了前女友竟然已經有三百多票排到第三名了，我怎麽能眼睜

把python爬出來的數據，用pymysql插入數據庫中

關於找工作，聽聽樹莓老學長怎麼說

前言最近經常有一些學弟學妹找我諮詢找工作的事情，在給一臉懵逼的學弟學妹解答的時候也常想起我本科畢業的時候。作為樹莓專業最資深（其實是年齡最大）的助班，謹以此文送給那些即將踏出校門的小鮮肉們，希望學長踩過的坑能幫到你們。本文的讀者群體建議為不考研的大三或剛步入大四的本科生。如

Python爬取抖音APP，竟然只需要十行程式碼

環境說明環境： python 3.7.1 centos 7.4 pip 10.0.1 部署 [[email protected] ~]# python3.7 --version Python 3.7.1 [[email protected] ~]#

用AI幫你找工作，領英是如何做的？

領英人工智慧研發總監張樑 11 月 8-9 日，CSDN 和 AICamp 聯合舉辦的AI開發者大會在京舉行。領英（LinkedIn）人工智慧研發總監張樑發表了《AI 在大規模招聘求職上的應用》的主題演講，並接受了 AI科技大本營的專訪。張樑在分享中表示，人

Python爬Boss，找工作，快人一步！！！

結尾：歡迎加入我們一起學習

相關推薦