Scrapy模組爬取中華英才網招聘資訊(分頁)

阿新 • • 發佈：2020-12-07

import scrapy
from fenye.items import FenyeItem
import requests
class ZhfySpider(scrapy.Spider):
    name = 'zhfy'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.chinahr.com/channel/rizhao/pn1/']
    # 分頁操作
    urls = 'http://www.chinahr.com/channel/rizhao/pn%d/'
    page_num = 
 2

    def parse(self, response):
        li_list = response.xpath('//div[@class="assortment_right_tab_content"]/ul/li')
        for li in li_list:
            job_name = li.xpath('./div[1]/h1/text()').extract_first()
            job_content = li.xpath('./div[2]/span[2]/text()').extract_first()
            # 例項化item物件，進行持久化儲存。 

            # print(job_name,job_content)
            item = FenyeItem()
            item['job_name'] = job_name
            item['job_content'] = job_content
            # 提交給管道進行持久化儲存
            yield item
            if self.page_num < 3:
                new_url = format(self.urls % self.page_num) 

                self.page_num += 1
                # 手動請求傳送：callback回撥函式用於資料解析。
                yield scrapy.Request(url=new_url, callback=self.parse)

items.py
import scrapy
class Kjpro3Item(scrapy.Item):
    job_name=scrapy.Field()
    job_data=scrapy.Field()
    job_salary=scrapy.Field()
    job_content=scrapy.Field()


piplines.py
import pymysql

class Kjpro3Pipeline:
    def open_spider(self,spider):
        self.conn=pymysql.connect(
            host='localhost',
            port=3306,
            user='root',
            password='root',
            db='scrapy',
            charset='utf8'
        )
        print('爬蟲開始！！')

    def process_item(self, item, spider):
        self.cursor = self.conn.cursor()
        value=(item['job_name'],item['job_data'],item['job_salary'],item['job_content'])
        try:
            sql='insert into job_4(job_name,job_data,job_salary,job_content) value(%s,%s,%s,%s)'
            self.cursor.execute(sql,value)
            self.conn.commit()
            print('資料插入成功！！')
        except:
            print('資料插入失敗！！！')

        return item
    def close_spider(self,spider):
        print('爬蟲結束！！')
        self.cursor.close()
        self.conn.close()

資料庫截圖：
在這裡插入圖片描述

settings.py
USER_AGENT = 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Mobile Safari/537.36'
ROBOTSTXT_OBEY = False

LOG_LEVEL='ERROR'
ITEM_PIPELINES = {
   'kjPro3.pipelines.Kjpro3Pipeline': 300,
}

Scrapy模組爬取中華英才網招聘資訊(分頁)

技術標籤：爬蟲scrapy import scrapy from fenye.items import FenyeItem import requests class ZhfySpider(scrapy.Spider):

Python爬蟲例項——scrapy框架爬取拉勾網招聘資訊

本文例項為爬取拉勾網上的python相關的職位資訊,這些資訊在職位詳情頁上,如職位名,薪資,公司名等等.

python使用requests庫爬取拉勾網招聘資訊的實現

按F12開啟開發者工具抓包，可以定位到招聘資訊的介面在請求中可以獲取到介面的url和formdata，表單中pn為請求的頁數，kd為關請求職位的關鍵字

python 爬取位元組內推招聘資訊

　　今天收到一個任務，用 python 爬取招聘網站資訊。招聘網址是這個：https://job.toutiao.com/s/JNcJSRo。開啟之後自動跳轉到了這裡：https://job.bytedance.com/referral/pc/position?token=MzsxNTk0NDQzMDMxOTkz

python爬取拉勾網職位資訊-python相關職位

import requestsimport mathimport pandas as pdimport timefromlxml import etreeurl = \'https://www.lagou.com/jobs/positionAjax.json?px=default&needAddtionalResult=false\'headers = {\'Accept\': \"app

Python selenium庫爬取淘寶網商品資訊

重大跟新：https://blog.csdn.net/pineapple_C/article/details/108181761post模擬登入淘寶並爬取商品列表

Python爬蟲 scrapy框架爬取某招聘網存入mongodb解析

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構

Scrapy例項2、爬取靚號網

技術標籤：爬蟲Scrapypythonpythonmysql爬蟲專案分析：專案名：phone 爬蟲名：getphone 爬取的網址：http://www.jihaoba.com/escrow/ 集號吧

scrapy + selenium爬取網易新聞

前言：這算是一個比較綜合的案例，理清了該案例會感到最近學的知識變的很條例、很清晰。需求是爬取五大板塊對應的新聞標題以及每個標題對飲的新聞內容。

scrapy+selenium爬取馬蜂窩網實戰

剛開始學習selenium動態網頁的爬蟲，就想著自己做個實戰練習練習，然後就準備爬取馬蜂窩旅遊網重慶的全部旅遊景點，本來以為不是特別難，沒想到中間還是出現了很多問題，包括重寫下載中介軟體，加cookies，selenium

Python scrapy增量爬取例項及實現過程解析

這篇文章主要介紹了Python scrapy增量爬取例項及實現過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬蟲爬取煎蛋網圖片程式碼例項

這篇文章主要介紹了Python爬蟲爬取煎蛋網圖片程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python爬蟲爬取筆趣網小說網站過程圖解

首先：文章用到的解析庫介紹 BeautifulSoup： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

Python利用Scrapy框架爬取豆瓣電影示例

本文例項講述了Python利用Scrapy框架爬取豆瓣電影。分享給大家供大家參考，具體如下：

Python Scrapy圖片爬取原理及程式碼例項

1.在爬蟲檔案中只需要解析提取出圖片地址，然後將地址提交給管道在管道檔案對圖片進行下載和持久化儲存

Scrapy嘗試爬取微博熱搜

首先自己想要的item： 1 import scrapy 2 3 4 class WeiboItem(scrapy.Item): 5 6rank = scrapy.Field()

python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面

問題有的頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得

關於使用scrapy框架爬取小說的進一步優化

一、背景：前面使用scrapy框架爬取小說時，需要修改兩個檔案內容才能開展新的爬取，考慮只修改一個檔案，把需要修改的引數都放入爬蟲檔案中。

04爬取拉勾網Python崗位分析報告

# 匯入需要的包import requestsimport time,randomfrom openpyxl import Workbookimport pymysql.cursors#@ 連線資料庫；# 這個是我本地上邊執行的程式，用來獲取代理伺服器。def get_proxy():try:PROXY_POOL_URL =

requests+re快速爬取颱風路徑網

要爬取的網站是浙江水利局的颱風路徑網站，在該網站不僅可以檢視當前正在發生的颱風實況，還可以檢視已發生過的颱風的歷史路徑，如下圖所示。

Scrapy模組爬取中華英才網招聘資訊(分頁)

相關推薦