Python爬蟲 scrapy框架爬取某招聘網存入mongodb解析

阿新 • • 發佈：2020-01-09

建立專案

scrapy startproject zhaoping

建立爬蟲

cd zhaoping
scrapy genspider hr zhaopingwang.com

目錄結構

items.py

  title = scrapy.Field()
  position = scrapy.Field()
  publish_date = scrapy.Field()

pipelines.py

from pymongo import MongoClient

mongoclient = MongoClient(host='192.168.226.150',port=27017)
collection = mongoclient['zhaoping']['hr']

class TencentPipeline(object):
  def process_item(self,item,spider):
    print(item)
    # 需要轉換為 dict
    collection.insert(dict(item))
    return item

spiders/hr.py

def parse(self,response):
    # 不要第一個 和最後一個
    tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]
    for tr in tr_list:
      item = TencentItem()
      # xpath 從1 開始數起
      item["title"] = tr.xpath("./td[1]/a/text()").extract_first()
      item["position"] = tr.xpath("./td[2]/text()").extract_first()
      item["publish_date"] = tr.xpath("./td[5]/text()").extract_first()
      yield item

    next_url = response.xpath("//a[@id='next']/@href").extract_first()
    # 構造url
    if next_url != "javascript:;":
      print(next_url)
      next_url = "https://hr.tencent.com/" + next_url
      yield scrapy.Request(url=next_url,callback=self.parse,)

就是這麼簡單，就獲取到資料

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python爬蟲 scrapy框架爬取某招聘網存入mongodb解析

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構

Python爬蟲例項——scrapy框架爬取拉勾網招聘資訊

本文例項為爬取拉勾網上的python相關的職位資訊,這些資訊在職位詳情頁上,如職位名,薪資,公司名等等.

Python利用Scrapy框架爬取豆瓣電影示例

本文例項講述了Python利用Scrapy框架爬取豆瓣電影。分享給大家供大家參考，具體如下：

python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面

問題有的頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得

Python爬蟲小例子——爬取51job釋出的工作職位

概述不知從何時起，Python和爬蟲就如初戀一般，情不知所起，一往而深，相信很多朋友學習Python，都是從爬蟲開始，其實究其原因，不外兩方面：其一Python對爬蟲的支援度比較好，類庫眾多。其二Pyhton的語法簡單，入門

Python爬蟲實戰：爬取美團美食資料

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

關於使用scrapy框架爬取小說的進一步優化

一、背景：前面使用scrapy框架爬取小說時，需要修改兩個檔案內容才能開展新的爬取，考慮只修改一個檔案，把需要修改的引數都放入爬蟲檔案中。

Python爬蟲實戰：爬取淘女郎照片

本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片

Python爬蟲實戰：爬取小姐姐最近的聽歌曲目

前言作為網易雲村的深度使用者，網易雲音樂應該是我除了微信外開啟時間最長的 App 了。並不是應為網易雲上面的歌曲多，而是因為那些走心的評論。邊聽歌邊刷評論，感覺就像是走進了他人的人生之中，從另外一種意義來

Python爬蟲案例：爬取攜程評論

前言之前爬取美團，馬蜂窩等網站的資料都挺順利，大眾點評（這個反爬機制有點麻煩）在磕磕絆絆中也算成功（重點是網頁頁數的變化和關鍵字的隱藏替換）但攜程居然遇到了瓶頸。

Python爬蟲實戰：爬取首都醫科大學文章

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

用Python爬取某蔬菜網的行情，分析底哪個地區的蔬菜便宜

前言夏季到來，合理飲食很關鍵。夏季的飲食講究清淡，多吃蔬菜有利於養生。那麼哪個地區的蔬菜批發價格要便宜一些呢?讓我們用Python爬取某蔬菜網的行情價格，來分析下，到底哪個地區的蔬菜，要更便宜一些。

Python爬蟲——基於xpath爬取58同城房源資訊！

1、需求獲取58同城上所有房源的標題資訊https://bj.58.com/ershoufang/ 2、分析使用抓包工具進行分析

Python爬蟲Scrapy框架CrawlSpider原理及使用案例

提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？

Python爬蟲-帶你爬取高清美女圖片

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python使用requests庫爬取拉勾網招聘資訊的實現

按F12開啟開發者工具抓包，可以定位到招聘資訊的介面在請求中可以獲取到介面的url和formdata，表單中pn為請求的頁數，kd為關請求職位的關鍵字

python爬蟲教程：爬取酷狗音樂，零基礎小白也能爬取哦

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python爬蟲——帶你爬取古詩名句，考試什麼的不就是輕輕鬆鬆

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

案例六基於Scrapy框架爬取亞馬遜熱銷商品資訊

閱讀目錄一介紹二安裝三命令列工具四專案結構以及爬蟲應用簡介五 Spiders六 Selectors七 Items八 Item Pipeline九 Dowloader Middeware十 Spider Middleware十一自定義擴充套件十二 settings.py十三爬取亞馬遜

Scrapy模組爬取中華英才網招聘資訊(分頁)

技術標籤：爬蟲scrapy import scrapy from fenye.items import FenyeItem import requests class ZhfySpider(scrapy.Spider):