Python的scrapy之爬取boss直聘網站

阿新 • • 發佈：2018-12-18

在我們的專案中，單單分析一個51job網站的工作職位可能爬取結果不太理想，所以我又爬取了boss直聘網的工作，不過boss直聘的網站一次只能展示300個職位，所以我們一次也只能爬取300個職位。

jobbossspider.py:

# -*- coding: utf-8 -*-
import scrapy
from ..items import JobbossItem

class JobbosspiderSpider(scrapy.Spider):
    name = 'jobbosspider'
    #allowed_domains = ['https://www.zhipin.com/']
    allowed_domains = [' 
zhipin.com']
    # 定義入口URL
    #start_urls = ['https://www.zhipin.com/c101010100/?query=python&page=1&ka=page-1']    #北京
    #start_urls=['https://www.zhipin.com/c100010000/h_101010100/?query=Python&ka=sel-city-100010000']   #全國
    #start_urls=['https://www.zhipin.com/c101020100/h_101010100/?query=Python&ka=sel-city-101020100']   #上海
    # 
start_urls=['https://www.zhipin.com/c101280100/h_101010100/?query=Python&ka=sel-city-101280100']     #廣州
    #start_urls=['https://www.zhipin.com/c101280600/h_101010100/?query=Python&ka=sel-city-101280600']    #深圳
    #start_urls=['https://www.zhipin.com/c101210100/h_101010100/?query=Python&ka=sel-city-101210100']     #杭州
    #start_urls=['https://www.zhipin.com/c101030100/h_101010100/?query=Python&ka=sel-city-101030100']      #天津 

    #start_urls=['https://www.zhipin.com/c101110100/h_101010100/?query=Python&ka=sel-city-101110100']       #西安
    #start_urls=['https://www.zhipin.com/c101200100/h_101010100/?query=Python&ka=sel-city-101200100']        #武漢
    #start_urls=['https://www.zhipin.com/c101270100/h_101010100/?query=Python&ka=sel-city-101270100']         #成都
    start_urls=['https://www.zhipin.com/c100010000/h_101270100/?query=python%E7%88%AC%E8%99%AB&ka=sel-city-100010000']  #爬蟲工程師，全國

    # 定義解析規則,這個方法必須叫做parse
    def parse(self, response):
        item = JobbossItem()
        # 獲取頁面資料的條數
        node_list = response.xpath("//*[@id=\"main\"]/div/div[2]/ul/li")
        # 迴圈解析頁面的資料
        for node in node_list:
            item["job_title"] = node.xpath(".//div[@class=\"job-title\"]/text()").extract()[0]
            item["compensation"] = node.xpath(".//span[@class=\"red\"]/text()").extract()[0]
            item["company"] = node.xpath("./div/div[2]/div/h3/a/text()").extract()[0]
            company_info = node.xpath("./div/div[2]/div/p/text()").extract()
            temp = node.xpath("./div/div[1]/p/text()").extract()
            item["address"] = temp[0]
            item["seniority"] = temp[1]
            item["education"] = temp[2]
            if len(company_info) < 3:
                item["company_type"] = company_info[0]
                item["company_finance"] = ""
                item["company_quorum"] = company_info[-1]
            else:
                item["company_type"] = company_info[0]
                item["company_finance"] = company_info[1]
                item["company_quorum"] = company_info[2]
            yield item
            # 定義下頁標籤的元素位置
            next_page = response.xpath("//div[@class=\"page\"]/a/@href").extract()[-1]
            # 判斷什麼時候下頁沒有任何資料
            if next_page != 'javascript:;':
                base_url = "https://www.zhipin.com"
                url = base_url + next_page
                yield scrapy.Request(url=url, callback=self.parse)




'''
# 斜槓（/）作為路徑內部的分割符。
# 同一個節點有絕對路徑和相對路徑兩種寫法。
# 絕對路徑（absolute path）必須用"/"起首，後面緊跟根節點，比如/step/step/...。
# 相對路徑（relative path）則是除了絕對路徑以外的其他寫法，比如 step/step，也就是不使用"/"起首。
# "."表示當前節點。
# ".."表示當前節點的父節點

nodename（節點名稱）：表示選擇該節點的所有子節點

# "/"：表示選擇根節點

# "//"：表示選擇任意位置的某個節點

# "@"： 表示選擇某個屬性
'''

items.py

import scrapy


class JobbossItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    job_title = scrapy.Field()  # 崗位
    compensation = scrapy.Field()  # 薪資
    company = scrapy.Field()  # 公司
    address = scrapy.Field()  # 地址
    seniority = scrapy.Field()  # 工作年薪
    education = scrapy.Field()  # 教育程度
    company_type = scrapy.Field()  # 公司型別
    company_finance = scrapy.Field()  # 融資
    company_quorum = scrapy.Field()  # 公司人數

pipelines輸出管道:

class JobbossPipeline(object):
    def process_item(self, item, spider):
        print('職位名:',item["job_title"])
        print('薪資:',item["compensation"])
        print('公司名:',item["company"])
        print('公司地點:',item["address"])
        print('工作經驗:',item["seniority"])
        print('學歷要求:',item["education"])
        print('公司型別:',item["company_type"])
        print('融資:',item["company_finance"])
        print('公司人數:',item["company_quorum"])
        print('-'*50)
        return item

pipelinemysql輸入到資料庫中:

# -*- coding: utf-8 -*-
from week5_day04.dbutil import dbutil

# 作業： 自定義的管道，將完整的爬取資料，儲存到MySql資料庫中
class JobspidersPipeline(object):
    def process_item(self, item, spider):
        dbu = dbutil.MYSQLdbUtil()
        dbu.getConnection()  # 開啟事物

        # 1.新增
        try:
            sql = "insert into boss_job (job_title,compensation,company,address,seniority,education,company_type,company_finance,company_quorum)values(%s,%s,%s,%s,%s,%s,%s,%s,%s)"
            #date = []
            #dbu.execute(sql, date, True)
            dbu.execute(sql, (item["job_title"],item["compensation"],item["company"],item["address"],item["seniority"],item["education"],item["company_type"],item["company_finance"],item["company_quorum"]),True)
            dbu.commit()
            print('插入資料庫成功！！')
        except:
            dbu.rollback()
            dbu.commit()  # 回滾後要提交
        finally:
            dbu.close()
        return item

在settings.py中開啟如下設定

SPIDER_MIDDLEWARES = {
    'jobboss.middlewares.JobbossSpiderMiddleware': 543,
}

DOWNLOADER_MIDDLEWARES = {
    'jobboss.middlewares.JobbossDownloaderMiddleware': 543,
    'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None, # 這一行是取消框架自帶的useragent
    'jobboss.rotateuseragent.RotateUserAgentMiddleware': 400
}

ITEM_PIPELINES = {
    'jobboss.pipelines.JobbossPipeline': 300,
    'jobboss.pipelinesmysql.JobspidersPipeline': 301,
}

LOG_LEVEL='INFO'
LOG_FILE='jobboss.log'

#最後這兩行是加入日誌

最後啟動專案，可以在pycharm自帶的terminal中輸入：scrapy crawl 爬蟲檔案的名稱

也可以創一個小的啟動程式：

from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'jobbosspider'])

爬蟲啟動結果：

資料庫中的資料如下：

以上就是爬取boss直聘的所有內容了

Python的scrapy之爬取boss直聘網站

在我們的專案中，單單分析一個51job網站的工作職位可能爬取結果不太理想，所以我又爬取了boss直聘網的工作，不過boss直聘的網站一次只能展示300個職位，所以我們一次也只能爬取300個職位。 jobbossspider.py: # -*- coding: utf-8 -*- import scrapy

Python的scrapy之爬取boss直聘

在我們的專案中，單單分析一個51job網站的工作職位可能爬取結果不太理想，所以我又爬取了boss直聘網的工作，不過boss直聘的網站一次只能展示300個職位，所以我們一次也只能爬取300個職位。 jobbossspider.py: # -*- coding: utf-8 -*- import

簡易python爬蟲爬取boss直聘職位，並寫入excel

python爬蟲寫入excel1，默認城市是杭州，代碼如下#! -*-coding:utf-8 -*-from urllib import request, parsefrom bs4 import BeautifulSoupimport datetimeimport xlwt starttime = dat

爬蟲之抓取 Boss直聘資料到 Excel 中

宣告：此部落格爬取的資料只為學習爬蟲使用，絕非廣告程式介紹檔案目錄 ├── Zhipin_spider ＃資料夾 │ ├── spider_main.py # 排程器。是

[python爬蟲]爬取boss直聘並且存到Mysql資料庫裡

導包 import chardet,re,json,pymysql from urllib import request,parse from piaot import * Mysql def sql(sql_z): # 開啟資料庫連線

python爬取boss直聘原始碼

說明：登入boss直聘、獲取推薦牛人資訊、篩選牛人，然後進行溝通，目前只能做到溝通，還不能進行繼續交流。圖片驗證碼目前只能將驗證碼圖片儲存到本地，通過圖片管理器開啟之後手工輸入。一次登入後，可在會話失效前多次執行牛人推薦溝通 import requests from

BOSS直聘網站資料分析崗位資訊爬取

感謝BOSS直聘上比較可靠的招聘資訊，讓我們有機會對資料分析崗位進行簡單的爬取與分析。語言：Python3 目錄一、資訊爬取二、資料分析 2.1 資料解析 2.2 資料分析 2.2.1 資料清洗

python3 + scrapy 抓取boss直聘崗位

前言：本文為記錄工程實現過程，會引用其他文章，如果又不清晰的地方可以檢視原文章。本文主旨在於記錄，所以部分作者瞭解的部分可能不會介紹而直接操作，如果有疑問請留言或者直接使用搜索引擎。引用： windows安裝scrapy 建立第一個scrapy工程一、安裝scrapy 管理員模式開啟power

CrawlScrapy框架爬取Boos直聘職位資訊

寫在前面和推薦學習零基礎：21天搞定Python分佈爬蟲在本文中使用CrawlScrapy框架結合代理來實現對Boos直聘職位資訊的爬取。簡單說明Scrapy框架主要流程 1.爬蟲傳送一個請求給引擎 2.引擎將這個請求傳送給排程器 3.排程器按照一定的方式進

爬蟲進階：Scrapy抓取boss直聘、拉勾心得經驗

關於使用Scrapy的體會，最明顯的感受就是這種模板化、工程化的腳手架體系，可以說是拿來即可開箱便用，大多僅需按一定的規則套路配置，剩下的就是專注於編寫跟爬蟲業務有關的程式碼。絕大多數的反反爬蟲策略，大多有以下幾種：忽略robots.txt協議新增隨機請求

Pyhton抓取BOSS直聘職位描述和資料清洗，很簡單沒有那麼難

一、抓取詳細的職位描述資訊詳情頁分析 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 在詳情頁中，比較重要的就是職位描述和工作地址這兩個由於在頁面程式碼中崗位職責和任職要求是在一個 div 中的，所以在抓的時候就不太好分，

pyspider爬蟲框架之boss直聘招聘資訊爬取

需求需求： 1、遍歷首頁所有職位分類 2、點選進入職位分類詳情頁，按照地區抓取，職位名稱，月薪，經驗年限要求，學歷要求，招聘公司，所屬行業，輪次，人數（規模），釋出時間 3、點選進入職位詳情頁，抓取該職位的技能標籤。程式碼程式碼有註釋

boss直聘的反爬取和隨機代理

from bs4 import BeautifulSoup import requests import ip_proxy from urllib import parse headers = { 'User-Agent': 'Mozilla/5.

簡單爬蟲之爬取網站圖片

這裡選取的網址是 http://www.doutula.com 目的：爬取其中的圖片並且翻頁爬取首頁圖片的規則 <img src="https://ws3.sinaimg.cn/bmiddle/6af89bc8gw1f

Python之爬取IP代理網站

本篇是利用python的re庫和requests庫一些知識來抓取某IP代理網站的各種IP資訊，並將其存入txt檔案中. 不多說,附上程式碼及其結果(ps:由於初次學習,程式碼有許多需要改進的地方,不足之處,大家自動忽略…..) import reque

Python爬蟲之爬取各大幣交易網站公告——靜態網站.md

Python爬蟲之爬取各大幣交易網站公告——靜態網站瞭解爬蟲之後，我們也漸漸掌握了根據網站的種類選擇不同庫來對其進行處理，提取我們想要的東西。靜態網站，我們往往利用requests庫提取網站html資訊，再通過正則表示式或BeautifulSoup庫提取我們

“鼓上蚤”帶你實戰之Boss直聘爬蟲

1 . 前言2 . 資料需求3 . 分析頁面1前言目前來說，在網際網路招聘界有一個“蓬勃生長”的“招聘小巨頭”，也就是我們這期被爬的第一“男豬腳”----Boss直聘logo.png，為什麼說它是小巨頭呢，也是因為其成立於2014年，短短兩三年的時間，憑藉其“讓Boss主動找你”的職業

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

java爬蟲一（分析要爬取數據的網站）

java爬蟲一、獲取你想要抓取的網站地址：http://www.zhaopin.com/然後打開控制臺，F12，打開。我用的是Chrome瀏覽器，跟個人更喜歡Chrome的控制臺字體。找到搜索欄對應的html標簽：http://sou.zhaopin.com/jobs/searchresult.ashx?jl

使用VUE模仿BOSS直聘APP

調試接口本地的人使用 .... sage 文檔在線 ons 一、碎碎念：偶爾在群裏看到一個小夥伴說：最近面試的人好多都說用vue做過一個餓了麽。當時有種莫名想笑。為何不知道創新一下？於是想寫個DEMO演練一下。那去模仿誰呢？還是BOSS直聘(跟我沒關系，不是

Python的scrapy之爬取boss直聘網站

相關推薦