python3 爬蟲爬取智聯招聘崗位資訊

阿新 • • 發佈：2019-02-16

這套程式基於python3 ，使用requests和re正則表示式，只需要將程式儲存為.py檔案後，即可將抓取到的資料儲存到指定路徑的Excel檔案中。程式在終端中啟動，啟動命令：

#python3 檔名.py 關鍵字 城市
python3 zhilian.py python 杭州

程式碼如下：

# coding:utf-8
import requests
import re
import xlwt
import sys,os

workbook = xlwt.Workbook(encoding='utf-8')
booksheet = workbook.add_sheet('Sheet 1' 
, cell_overwrite_ok=True)


class ZhiLian(object):
    def __init__(self):
        self.start_url = 'https://m.zhaopin.com/{}/?keyword={}&pageindex={}&maprange=3&islocation=0&order=4'
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Mobile Safari/537.36" 

        }
        self.test_url = '<section class="job-list.*?".*?>.*?<div class="job-name fl ">(.*?)</div>.*?<div class="fl">(.*?)</div>.*?<div class="comp-name fl">(.*?)</div>.*?<span class="ads">(.*?)</span>.*?<div class="time fr">(.*?)</div>' 

        self.select_city_url = 'https://m.zhaopin.com/searchjob/selectcity'
        self.test_city = ' <a data-code="(.*?)" href="/(.*?)/">(.*?)</a>'

    def parse_url(self, url):
        '''傳送請求'''
        response = requests.get(url, headers=self.headers)
        return response.content.decode()

    def get_data(self, test_url, content):
        '''獲取資料'''

        content_list = re.findall(test_url, content, re.S)
        return content_list

    def get_content(self, content_list, DATA):
        '''提取資料'''
        for content in content_list:
            DATA.append((content[0], content[1], content[2], content[3], content[4]))

    def save_content(self, DATA, city, key_words):
        '''儲存到excel'''
        for i, row in enumerate(DATA):
            for j, col in enumerate(row):
                booksheet.write(i, j, col)
         #判斷儲存的路徑，如果和我的路徑不一樣，會自動儲存到當前程式檔案所在目錄
        if(os.path.isdir('/home/itcast/Desktop/')):
            workbook.save('/home/itcast/Desktop/{}_{}.xls'.format(city,key_words))
        else:
            workbook.save('{}_{}.xls'.format(city, key_words))

    def select_city(self, url, search_city):
        '''選擇城市,返回城市程式碼'''
        city_dict = {}
        city_code = None
        r = requests.get(url, headers=self.headers)
        content = r.content.decode()
        city_content = re.findall(self.test_city, content, re.S)
        # print(city_content)
        # print(len(city_content))
        # 構造一個字典儲存城市資訊
        for city in city_content:
            # '566': ['tangshan', '唐山']
            city_dict[city[0]] = [city[1], city[2]]
        # print(len(city_dict))
        for keys, value in city_dict.items():
            if search_city == value[1]:
                city_code = value[0] + '-' + keys
                # print(city_code)

        return city_code

    def deal_city(self, city):
        '''處理城市資訊'''
        city_code = self.select_city(self.select_city_url, city)
        if city_code == None:
            print("查詢城市不存在，請重試")
            sys.exit()
        return city_code

    def run(self, city, key_words):
        # 1.start_url
        # 2.傳送請求，獲取響應
        i = 1
        DATA = [('崗位', '月薪', '公司', '城市', '釋出時間')]
        city_code = self.deal_city(city)
        while True:

            url = self.start_url.format(city_code, key_words, i)
            content = self.parse_url(url)
            content_list = self.get_data(self.test_url, content)
            self.get_content(content_list, DATA)
            # 儲存資料
            self.save_content(DATA, city, key_words)
            # 判斷是否還有資料 限制儲存最大頁數
            if (len(content_list) == 0 or i>100):
                print("儲存完成,共{}頁資料".format(i - 1))
                break
            print("正在儲存第{}頁資料".format(i))
            i += 1


if __name__ == '__main__':
    key_words = sys.argv[1]
    city = sys.argv[2]
    zhilian = ZhiLian()
    zhilian.run(city, key_words)

爬取結果如下：

python3 爬蟲爬取智聯招聘崗位資訊

這套程式基於python3 ，使用requests和re正則表示式，只需要將程式儲存為.py檔案後，即可將抓取到的資料儲存到指定路徑的Excel檔案中。程式在終端中啟動，啟動命令： #python3 檔名.py 關鍵字城市 python3 zhilian.p

Beautiful Soup爬蟲——爬取智聯招聘的資訊並存入資料庫

本人目前在校本科萌新…第一次寫有所不足還請見諒前期準備智聯招聘網頁讓我們來搜尋一下python 發現網頁跳轉到這讓我們看一下原始碼發現並沒有我們所需要的資料一開始我不信邪用requests嘗試了一下 import requests header

Python爬蟲爬取智聯招聘職位資訊

目的：輸入要爬取的職位名稱，五個意向城市，爬取智聯招聘上的該資訊，並列印進表格中 #coding:utf-8 import urllib2 import re import xlwt class ZLZP(object): def __init__(self

爬蟲二：爬取智聯招聘職位資訊

1. 簡介因為想要找到一個數據分析的工作，能夠了解到市面上現有的職位招聘資訊也會對找工作有所幫助。今天就來爬取一下智聯招聘上資料分析師的招聘資訊，並存入本地的MySQL。 2. 頁面分析 2.1 找到資料來源開啟智聯招聘首頁，選擇資料分析師職位，跳轉進入資料分析師的詳情頁面。我

selenium+PyQuery+chrome headless 爬取智聯招聘求職資訊

最近導師讓自己摸索摸索Python爬蟲，好了就開始一發不可收拾的地步。正巧又碰到有位同學需要一些求職資訊對求職資訊進行資料分析，本著練練手的目的寫了用Python爬取智聯招聘網站的資訊。這一爬取不得了，智聯網站更新了，以前的大佬們的程式碼不能用，而且全是動態載入，反爬蟲著實對

(轉)python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見

python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見最後連結），使用的軟體是Sublime Text，我們所需的內容如下圖所示：

python爬蟲例項之爬取智聯招聘資料

這是作者的處女作，輕點噴。。。。實習在公司時領導要求學習python，python的爬蟲作為入門來說是十分友好的，話不多說，開始進入正題。主要是爬去智聯的崗位資訊進行對比分析出java和python的趨勢，爬取欄位：工作地點，薪資範圍，要求學歷，

【爬蟲入門】【Json】爬取智聯招聘

爬蟲中也會經常會遇到以JSON資料返回內容的網站，這種網站不再需要使用正則表示式匹配文字，直接分析網站是否含有介面返回JSON，如果有，直接使用json.load()對json字串進行解析就可以獲取資料。 # pip install requests:比較流行的第三方請求庫 #https

scrapy 爬取智聯招聘

準備工作　　1. scrapy startproject Jobs　　2. cd Jobs　　3. scrapy genspider ZhaopinSpider www.zhaopin.com　　4. scrapy crawl ZhaopinSpider　　5. pip install d

使用scrapy框架+模擬瀏覽器方法實現爬取智聯的職位資訊

由於智聯的頁面是由js動態載入的,一般的方法只能得到js載入前的頁面,為了得到載入過的頁面需要通過模擬瀏覽器來拿到完整的頁面. 下面的程式碼只是簡單的實現,爬取智聯頁面的部分功能,其他根據需要自己實現中介軟體(middleswares.py)程式碼: from scrapy.ht

手把手帶你抓取智聯招聘的“資料分析師”崗位！

前言很多網友在後臺跟我留言，是否可以分享一些爬蟲相關的文章，我便提供了我以前寫過的爬蟲文章的連結（如下連結所示），大家如果感興趣的話也可以去看一看哦。在本文中，我將以智聯招聘為例，分享一下如何抓取近5000條的資料分析崗資訊。往期爬蟲連結上海歷史天氣和空氣質量資料獲取（Pyth

Python爬蟲之五：抓取智聯招聘基礎版

對於每個上班族來說，總要經歷幾次換工作，如何在網上挑到心儀的工作？如何提前為心儀工作的面試做準備？今天我們來抓取智聯招聘的招聘資訊，助你換工作成功！執行平臺： Windows Python版本： Python3.6 IDE： Sublime Te

Python3爬蟲爬取淘寶商品數據

表格 name 錯誤處理 from [0 https iat turn 感覺這次的主要的目的是從淘寶的搜索頁面獲取商品的信息。其實分析頁面找到信息很容易，頁面信息的存放都是以靜態的方式直接嵌套的頁面上的，很容易找到。主要困難是將信息從HTML源碼中剝離出來，數據和網頁源碼

python3爬蟲爬取煎蛋網妹紙圖片

port 商業技術分享爬取其中 lar c函數 base 技術其實之前實現過這個功能，是使用selenium模擬瀏覽器頁面點擊來完成的，但是效率實際上相對來說較低。本次以解密參數來完成爬取的過程。首先打開煎蛋網http://jandan.net/ooxx，查看網頁

python3爬蟲 -----爬取鬥圖息-------www.doutula.com

run __init__ args gin uid == utf-8 date src 普通爬取： 1 # -*- coding:utf-8 -*- 2 # author:zxy 3 # Date:2018-10-21 4 import requests 5 f

python3爬蟲 -----爬取百思不得姐信息-------http://www.budejie.com/

chrom tree www cti mozilla from tar 2-0 sum 1 # -*- coding:utf-8 -*- 2 # author:zxy 3 # Date:2018-10-21 4 5 import request 6 from

python3爬蟲--爬取豆瓣Top250的圖書

from lxml import etree import requests import csv fp = open('doubanBook.csv', 'wt', newline='', encoding='utf-8') writer = csv.writer(fp) writer.

scrapy模擬瀏覽器翻頁爬取智聯

智聯爬取中,頁碼的數字和url是不匹配的,因此盲目的拼接url會造成錯誤,因此可以採用模擬瀏覽器爬取網頁要模擬瀏覽器需要知道scrapy流程,簡圖如下: 這裡只是簡單的寫一些偽碼,設計的資料清洗部分請看scrapy資料清洗 middleswares.py from scrap

python3爬蟲爬取網頁圖片簡單示例

本人也是剛剛開始學習python的爬蟲技術，然後本來想在網上找點教程來看看，誰知道一搜索，大部分的都是用python2來寫的，新手嘛，一般都喜歡裝新版本。於是我也就寫一個python3簡單的爬蟲，爬蟲一下貼吧的圖片吧。話不多說，我們開始。首先簡單來說說一下知識。一

python3 爬蟲 爬取智聯招聘崗位資訊

相關推薦

python3 爬蟲爬取智聯招聘崗位資訊