scrapy 爬取智聯招聘

阿新 • • 發佈：2019-01-11

準備工作

　　1. scrapy startproject Jobs
　　2. cd Jobs
　　3. scrapy genspider ZhaopinSpider www.zhaopin.com
　　4. scrapy crawl ZhaopinSpider
　　5. pip install diskcache
　　6. pip install tinydb
　　7. scrapy crawl ZhaopinSpider -o chongqing.json

ZhaopinSpider

# -*- coding: utf-8 -*-
import os
 
import json

from tinydb import TinyDB, Query
from furl import furl
import scrapy


class ZhaopinspiderSpider(scrapy.Spider):
    name = 'ZhaopinSpider'
    allowed_domains = ['www.zhaopin.com', 'sou.zhaopin.com', 'fe-api.zhaopin.com']
    start_urls = ['https://www.zhaopin.com/citymap']
    cache_db  
= TinyDB('ZhaopinSpider-cache.json')  # 快取資料庫
    allowed_cities = ['重慶', ]# '成都', '上海', '深圳', '昆明', '杭州', '貴陽', '寧波']  ## 允許的城市
    F = furl('https://fe-api.zhaopin.com/c/i/sou?pageSize=90&kt=3')  # URL母版
    PAGE_SIZE = 90  # 分頁大小

    def get_city_code(self, city_name):
        '''(根據城市名)獲取城市程式碼 
'''
        Q = Query()
        city = self.cache_db.get(Q.name.search(city_name))
        if isinstance(city, dict):
            return city['code']
        else:
            print('@' * 100)
            print(type(city))

    def init_city_info(self, response):
        '''初始化城市資訊'''
        # 取原始碼
        script_text = response.xpath('//script[text()[contains(., "__INITIAL_STATE__")]]/text()').extract_first()
        # 去收尾空格
        script_text = script_text.strip()
        # 預處理為符合json規範的資料
        script_json = script_text[script_text.index('=') + 1:]
        # 將json字串轉為字典
        script_dict = json.loads(script_json)
        '''
        # 儲存取得的json, 便於除錯檢視
        with open('text.json', 'wt', encoding='utf-8') as f:
            json.dump(script_dict, f, indent=4, ensure_ascii=False)
        '''
        '''
        city_list = []  # 儲存城市列表
        # 將字典中的城市提取到列表中，便於查詢
        for ch in script_dict['cityList']['cityMapList']:
            city_list.extend(script_dict['cityList']['cityMapList'][ch])
        # 篩選出重慶，並獲取城市碼
        city_code = (list(filter(lambda city: city['name'] == '重慶', city_list)) or [{'code': None}])[0]['code']
        '''
        for ch in script_dict['cityList']['cityMapList']:
            for city in script_dict['cityList']['cityMapList'][ch]:
                self.cache_db.insert(city)

    def parse(self, response):
        # if not os.path.exists('ZhaopinSpider-cache.json'):
        if not bool(self.eache_db.all()):
            self.init_city_info(response)
        # 迭代每一個要爬取的城市
        for city_name in self.allowed_cities:
            # 啟動 爬取某個城市 第一個請求
            # import ipdb; ipdb.set_trace()
            yield self.request_city(city_name)

    def request_city(self, city_name, page_start=0):
        '''構造 爬取某個具體的城市 的請求物件'''
        city_code = self.get_city_code(city_name)
        url_data = {
            'cityId': city_code,
            'kw': 'python',
            'start': page_start
        }
        # 要爬取的頁面的URL
        url = self.F.copy().add(url_data).url
        # import ipdb; ipdb.set_trace()
        req = scrapy.Request(url, callback=self.parse_city, dont_filter=False)
        # 使用 meta 傳遞附加資料，在 callback 中可以通過 respo.meta 取得
        req.meta['city_name'] = city_name
        req.meta['page_start'] = page_start
        return req

    def parse_city(self, response):
        '''解析具體的頁面'''
        # 解析json格式的響應結果
        resp_dict = json.loads(response.body_as_unicode())
        # 總共所能爬取的條數
        num_found = resp_dict['data']['numFound']
        # 獲取當前請求的 page_start
        page_start = response.meta['page_start']
        # 下一次請求，需要的 start 引數
        next_start = page_start + self.PAGE_SIZE
        # import ipdb; ipdb.set_trace()
        # 判斷是否有下一頁
        if next_start < num_found:
            # 獲取當前請求的 城市名
            city_name = response.meta['city_name']
            # 傳送下一頁請求
            yield self.request_city(city_name, page_start=next_start)
        # 解析資料
        for item in resp_dict['data']['results']:
            # TODO: 解析資料，只取我們需要的資訊
            item['spiderName'] = self.name
            # 返回每一條資料
            yield item

scrapy 爬取智聯招聘

準備工作　　1. scrapy startproject Jobs　　2. cd Jobs　　3. scrapy genspider ZhaopinSpider www.zhaopin.com　　4. scrapy crawl ZhaopinSpider　　5. pip install d

Beautiful Soup爬蟲——爬取智聯招聘的資訊並存入資料庫

本人目前在校本科萌新…第一次寫有所不足還請見諒前期準備智聯招聘網頁讓我們來搜尋一下python 發現網頁跳轉到這讓我們看一下原始碼發現並沒有我們所需要的資料一開始我不信邪用requests嘗試了一下 import requests header

selenium+PyQuery+chrome headless 爬取智聯招聘求職資訊

最近導師讓自己摸索摸索Python爬蟲，好了就開始一發不可收拾的地步。正巧又碰到有位同學需要一些求職資訊對求職資訊進行資料分析，本著練練手的目的寫了用Python爬取智聯招聘網站的資訊。這一爬取不得了，智聯網站更新了，以前的大佬們的程式碼不能用，而且全是動態載入，反爬蟲著實對

爬蟲二：爬取智聯招聘職位資訊

1. 簡介因為想要找到一個數據分析的工作，能夠了解到市面上現有的職位招聘資訊也會對找工作有所幫助。今天就來爬取一下智聯招聘上資料分析師的招聘資訊，並存入本地的MySQL。 2. 頁面分析 2.1 找到資料來源開啟智聯招聘首頁，選擇資料分析師職位，跳轉進入資料分析師的詳情頁面。我

(轉)python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見

python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見最後連結），使用的軟體是Sublime Text，我們所需的內容如下圖所示：

python爬蟲例項之爬取智聯招聘資料

這是作者的處女作，輕點噴。。。。實習在公司時領導要求學習python，python的爬蟲作為入門來說是十分友好的，話不多說，開始進入正題。主要是爬去智聯的崗位資訊進行對比分析出java和python的趨勢，爬取欄位：工作地點，薪資範圍，要求學歷，

Python爬蟲爬取智聯招聘職位資訊

目的：輸入要爬取的職位名稱，五個意向城市，爬取智聯招聘上的該資訊，並列印進表格中 #coding:utf-8 import urllib2 import re import xlwt class ZLZP(object): def __init__(self

【爬蟲入門】【Json】爬取智聯招聘

爬蟲中也會經常會遇到以JSON資料返回內容的網站，這種網站不再需要使用正則表示式匹配文字，直接分析網站是否含有介面返回JSON，如果有，直接使用json.load()對json字串進行解析就可以獲取資料。 # pip install requests:比較流行的第三方請求庫 #https

python3 爬蟲爬取智聯招聘崗位資訊

這套程式基於python3 ，使用requests和re正則表示式，只需要將程式儲存為.py檔案後，即可將抓取到的資料儲存到指定路徑的Excel檔案中。程式在終端中啟動，啟動命令： #python3 檔名.py 關鍵字城市 python3 zhilian.p

scrapy模擬瀏覽器翻頁爬取智聯

智聯爬取中,頁碼的數字和url是不匹配的,因此盲目的拼接url會造成錯誤,因此可以採用模擬瀏覽器爬取網頁要模擬瀏覽器需要知道scrapy流程,簡圖如下: 這裡只是簡單的寫一些偽碼,設計的資料清洗部分請看scrapy資料清洗 middleswares.py from scrap

使用scrapy框架+模擬瀏覽器方法實現爬取智聯的職位資訊

由於智聯的頁面是由js動態載入的,一般的方法只能得到js載入前的頁面,為了得到載入過的頁面需要通過模擬瀏覽器來拿到完整的頁面. 下面的程式碼只是簡單的實現,爬取智聯頁面的部分功能,其他根據需要自己實現中介軟體(middleswares.py)程式碼: from scrapy.ht

手把手帶你抓取智聯招聘的“資料分析師”崗位！

前言很多網友在後臺跟我留言，是否可以分享一些爬蟲相關的文章，我便提供了我以前寫過的爬蟲文章的連結（如下連結所示），大家如果感興趣的話也可以去看一看哦。在本文中，我將以智聯招聘為例，分享一下如何抓取近5000條的資料分析崗資訊。往期爬蟲連結上海歷史天氣和空氣質量資料獲取（Pyth

python爬蟲--scrapy爬取騰訊招聘網站

背景：虛擬機器Ubuntu16.04，爬取https://hr.tencent.com/招聘資訊！第一步：新建專案：scrapy startproject tencent第二步：編寫items檔案 1 # -*- coding: utf-8 -*- 2 3 # D

Python爬蟲之五：抓取智聯招聘基礎版

對於每個上班族來說，總要經歷幾次換工作，如何在網上挑到心儀的工作？如何提前為心儀工作的面試做準備？今天我們來抓取智聯招聘的招聘資訊，助你換工作成功！執行平臺： Windows Python版本： Python3.6 IDE： Sublime Te

scrapy由淺入深(三) selenium模擬爬取ajax動態頁面(智聯招聘)

爬取智聯招聘的網址：https://sou.zhaopin.com/?pageSize=60&jl=489&kw=python&kt=3 上一篇部落格爬取了前程無憂的職位招聘資訊，總體來說前程無憂的網站資訊並不難爬取，前程無憂的網站並

智聯招聘抓取---scrapy框架和requests庫兩種方式實現

#首先分析目標站點，分析得出結果是在json接口裡，然後抓取企業資訊需要再次請求頁面進行抓取 #1.直接requests請求進行抓取儲存 ##需要注意點：可能不同企業單頁排版不一樣，需要判斷採取不同形式儲存為csv檔案注意格式，保證資料表格不換行需要新增

python+scrapy入門教程之爬取騰訊招聘職位資訊

我是用的IDE是pycharm,要想使用scrapy我們先安裝模組file-settings-project Interpreter 安裝完成之後我們開啟Terminal 在終端輸入：scrapy startproject tencent 建立spiders我們需要進入spi

網路爬蟲之scrapy爬取某招聘網手機APP釋出資訊

1 引言 2 APP抓包分析 3 編寫爬蟲昂 4 總結 1 引言過段時間要開始找新工作了，爬取一些崗位資訊來分析一下吧。目前主流的招聘網站包括前程無憂、智聯、BOSS直聘、拉勾等等。有

Python scrapy 爬取拉勾網招聘資訊

週末折騰了好久，終於成功把拉鉤網的招聘資訊爬取下來了。現在總結一下！環境： windows 8.1 + python 3.5.0 首先使用 scrapy 建立一個專案： E:\mypy> scrapy startproject lgjob 建立後目錄結構：

scrapy 爬取智聯招聘

相關推薦