二十九、scrapy構造併發送請求

阿新 • • 發佈：2018-12-22

1. 翻頁請求的思路

對於要提取如下圖中所有頁面上的資料該怎麼辦？
在這裡插入圖片描述

回顧requests模組是如何實現翻頁請求的：

（1）找到下一頁的URL地址
（2）呼叫requests.get(url)呼叫requests.get(url)

scrapy實現翻頁的思路：

（1）找到下一頁的url地址
（2）構造url地址的請求物件，傳遞給引擎

2. 構造Request物件，併發送請求

2.1 實現方法

（1）確定url地址
（2）構造請求，scrapy.Request(url,callback)
callback

：指定解析函式名稱，表示該請求返回的響應使用哪一個函式進行解析
（3）把請求交給引擎：yield scrapy.Request(url,callback)

2.2 騰訊招聘爬蟲

通過爬取騰訊招聘的頁面的招聘資訊,學習如何實現翻頁請求
地址：http://hr.tencent.com/position.php

思路分析：

（1）獲取首頁的資料
（2）尋找下一頁的地址，進行翻頁，獲取資料

注意：

可以在settings中設定ROBOTS協議

# False表示忽略網站的robots.txt協議，預設為True
ROBOTSTXT_OBEY = 
 False

可以在settings中設定User-Agent：

# scrapy傳送的每一個請求的預設UA都是設定的這個User-Agent
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

2.3 程式碼實現

在爬蟲檔案的parse方法中：

    # 提取下一頁的href並拼接url
    next_url = 'https://hr.tencent.com/' 
 + response.xpath('//a[text()="下一頁"]/@href').extract_first()
    # 判斷是否是最後一頁
    if response.xpath('//a[text()="下一頁"]/@href').extract_first() != 'javascript:;':
        # 構造scrapy.Request物件，並yield給引擎
        # 利用callback引數指定該Request物件之後獲取的響應用哪個函式進行解析
        # 利用meta引數將本函式中提取的資料傳遞給callback指定的函式
        # 注意這裡是yield
        yield scrapy.Request(next_url, callback=self.parse)

2.4 scrapy.Request的更多引數

scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False])

引數解釋

中括號裡的引數為可選引數

callback：表示當前的url的響應交給哪個函式去處理
meta：實現資料在不同的解析函式中傳遞，meta預設帶有部分資料，比如下載延遲，請求深度等
dont_filter:預設為False，會過濾請求的url地址，即請求過的url地址不會繼續被請求，對需要重複請求的url地址可以把它設定為Ture，比如貼吧的翻頁請求，頁面的資料總是在變化;start_urls中的地址會被反覆請求，否則程式不會啟動
method：指定POST或GET請求
headers：接收一個字典，其中不包括cookies
cookies：接收一個字典，專門放置cookies
body：接收一個字典，為POST的資料

3. meta引數的使用

meta的作用：meta可以實現資料在不同的解析函式中的傳遞

在爬蟲檔案的parse方法中，提取詳情頁之前增加callback指定的parse_detail函式：

def parse(self,response):
    ...
    yield scrapy.Request(detail_url, callback=self.parse_detail,meta={"item":item})
...

def parse_detail(self,response):
    #獲取之前傳入的item
    item = resposne.meta["item"]

特別注意

meta引數是一個字典
meta字典中有一個固定的鍵proxy，表示代理ip

4. BaseItem的使用

items.py中定義BaseItem

4.1 BaseItem能夠做什麼

定義item即提前規劃好哪些欄位需要抓取，防止手誤；配合註釋一起可以清晰的知道要抓取哪些欄位；沒有定義的欄位不能抓取；在欄位不多的情況下很少使用；可以在爬蟲中自定義資料字典來代替
使用scrapy的一些特定元件需要BaseItem做支援，如scrapy的ImagesPipeline管道類，百度搜索瞭解更多
在python大多數框架中，大多數框架都會自定義自己的資料型別(在python自帶的資料結構基礎上進行封裝)，目的是增加功能，增加自定義異常
如response.xpath()的返回物件具有extract()等方法

4.2 定義BaseItem

在items.py檔案中定義要提取的欄位：

class TencentItem(scrapy.Item): 
    name = scrapy.Field() # 招聘標題
    address = scrapy.Field() # 工作地址
    time = scrapy.Field() # 釋出時間
    job_content = scrapy.Field() # 工作職責

4.3 使用BaseItem

BaseItem頂以後需要在爬蟲中匯入並且例項化，之後的使用方法和使用字典相同

修改爬蟲檔案tencent.py：

from Tencent.items import TencentItem # 匯入Item，注意路徑
...
    def parse_detail(self, response):
        meta_dict = response.meta # 獲取傳入的meta

        item = TencentItem() # 例項化後可直接使用
        item['name'] = meta_dict['name']
        item['address'] = meta_dict['address']
        item['time'] = meta_dict['time']

        # 加入崗位職責資料
        item['job_content'] = response.xpath('//ul[@class="squareli"]/li/text()').extract() 

        print(item)

4.4 注意：

from myspider.items import ItcastItem這一行程式碼中注意item的正確匯入路徑，忽略pycharm標記的錯誤
python中的匯入路徑要訣：從哪裡開始執行，就從哪裡開始匯入

參考程式碼

Tencent/spiders/tencent.py

import scrapy
from Tencent.items import TencentItem # 匯入Item，注意路徑


class TencentSpider(scrapy.Spider):
    name = 'tencent'
    allowed_domains = ['hr.tencent.com']
    start_urls = ['http://hr.tencent.com/position.php']

    def parse(self, response):

        tr_list = response.xpath('//*[@class="tablelist"]//tr')[1:-1]
        for tr in tr_list:
            meta_dict = {}
            meta_dict['name'] = tr.xpath('.//a[1]/text()').extract_first()
            meta_dict['address'] = tr.xpath('./td[4]/text()').extract_first()
            meta_dict['time'] = tr.xpath('./td[5]/text()').extract_first()
            meta_dict['href'] = tr.xpath('.//a[1]/@href').extract_first()
            detail_url = 'https://hr.tencent.com/' + meta_dict['href']
            yield scrapy.Request(detail_url, callback=self.parse_detail, meta=meta_dict)

        # 提取下一頁的href並拼接url
        next_url = 'https://hr.tencent.com/' + response.xpath('//a[text()="下一頁"]/@href').extract_first()
        # 判斷是否是最後一頁
        if response.xpath('//a[text()="下一頁"]/@href').extract_first() != 'javascript:;':
            # 構造scrapy.Request物件，並yield給引擎
            # 利用callback引數指定該Request物件之後獲取的響應用哪個函式進行解析
            # 利用meta引數將本函式中提取的資料傳遞給callback指定的函式
            # 注意這裡是yield
            yield scrapy.Request(next_url, callback=self.parse)


    def parse_detail(self,response):
        meta_dict = response.meta  # 獲取傳入的meta

        item = TencentItem()  # 例項化後可直接使用
        item['name'] = meta_dict['name']
        item['address'] = meta_dict['address']
        item['time'] = meta_dict['time']

        # 加入崗位職責資料
        item['job_content'] = response.xpath('//ul[@class="squareli"]/li/text()').extract()

        print(item)

Tencent/items.py

import scrapy

class TencentItem(scrapy.Item):
    name = scrapy.Field() # 招聘標題
    address = scrapy.Field() # 工作地址
    time = scrapy.Field() # 釋出時間
    job_content = scrapy.Field() # 工作職責

Tencent/settings.py

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

ROBOTSTXT_OBEY = False

二十九、scrapy構造併發送請求

1. 翻頁請求的思路對於要提取如下圖中所有頁面上的資料該怎麼辦？回顧requests模組是如何實現翻頁請求的：（1）找到下一頁的URL地址（2）呼叫requests.get(url)呼叫requests.get(url) scra

二十九、併發程式設計之併發工具類Semaphore詳解

一、簡介 Semaphore是一個計數訊號量，常用於限制可以訪問某些資源（物理或邏輯的）執行緒數目。 Semaphore是計數訊號量。Semaphore管理一系列許可證。每個acquire方法阻塞，直到有一個許可證可以獲得然後拿走一個許可證；每個release方法增加一個許可證，這可能會

二十九、w查看系統負載、vmstat命令、top命令、sar命令、nload命令

w命令 vmstat命令 top命令 sar命令 nload命令二十九、w查看系統負載、vmstat命令、top命令、sar命令、nload命令一、使用w查看系統負載 # w 06:10:09 up 6:20, 1 user, load average: 0.00, 0.01, 0

從零開始之驅動發開、linux驅動（二十九、mmap原理）

一、概念 mmap是一種記憶體對映檔案的方法，即將一個檔案或者其它物件對映到程序的地址空間，實現檔案磁碟地址和程序虛擬地址空間中一段虛擬地址的一一對映關係。實現這樣的對映關係後，程序就可以採用指標的方式讀寫操作這一段記憶體，而系統會自動回寫髒頁面到對應的檔案磁碟上，即完成了對檔案的操作而不必

二十九、例項事件

easyUI入門《二十九、form案例：表單提交以及驗證重置清空》

<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>Insert title here</title> <!--引入

二十九、分割槽表的建立及清理

1、分割槽表建立 --範圍分割槽示例 drop table range_part_tab purge; --注意，此分割槽為範圍分割槽 create table range_part_tab (id number,deal_date date,area_code number,con

從零開始之驅動發開、linux驅動（二十九、linux中的程序）

一、程序 1、什麼是程序程序的概念是作業系統中最基本、最重要的概念。它是多道程式系統出現後，為了刻畫系統內部出現的動態情況，描述系統內部各道程式的活動規律而引進的一個新概念，所有多道程式設計的作業系統都建立在程序的基礎上。作業系統專門引入程序的概念，從理論角度看，是對正

二十七、scrapy的概念和工作流程

1. scrapy的概念 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，我們只需要實現少量的程式碼，就能夠快速的抓取。 Scrapy 使用了Twisted['twɪstɪd]非同步網路框架，可以加快我們的下載速度。 Scrapy文件地址：ht

二十九、Linux 程序與訊號——minishell（2）

程式設計內容：　　1.完成 echo env export 命令　　2.完成前後臺程序　　3.完成重定向完整程式碼如下： 29.1 主函式、通用標頭檔案和Makefile 29.1.1 主函式　　mshell_main.c 1 #include <stdio.

二十九、idea建立Spring boot 專案(MAVEN)

開啟idea，點選建立新專案，選擇Spring Initializr 點選next，填寫Group和Artifact 選擇Web，再選擇Web複選框填寫Project name，點選finish 開啟專案目錄，刪除以下資料夾和檔

二十九、Java圖形化介面設計——佈局管理器之FlowLayout（流式佈局）

前文講解了JFrame、JPanel，其中已經涉及到了空佈局的使用。Java雖然可以以畫素為單位對元件進行精確的定位，但是其在不同的系統中將會有一定的顯示差異，使得顯示效果不盡相同，為此java提供了佈局管理器，以使編寫的圖形介面具有良好的平臺無關性。

二十九、Springboot整合Web services，構建SOAP服務

（一）新增依賴 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-we

【轉】JMeter學習（二十九）使用Jmeter創建ActiveMQ JMS POINT TO POINT請求，環境搭建、請求創建、插件安裝、監聽服務器資源等

分布式 jndi 根目錄 point 啟動 lib .cn 轉載 p2p 最近要做公司消息中間件的性能測試，第一個想到的工具就是Jmeter了，網上簡單搜了一下，基本上都是WEB測試的居多，只好自己研究官方文檔了。其中涉及Jmeter基本的術語或者概念，請自行參考官方文檔

大數據筆記（二十九）——RDD簡介、特性及常用算子

contex mce true UC 步驟 rac rep enc 測試 1、什麽是RDD？最核心（*）彈性分布式數據集，Resilent distributed DataSet （*）Spark中數據的基本抽象（*）結合源碼，查看RDD的概念 RDD屬性

二十六、python學習之前端(九):JQuery資料互動

一.juqery物件: js中的物件,就是python中的字典: 1定義方法: 定義方法1: var obj1 = {name:"張三", "age":18, "address":"三里屯"} 定義方法2: var obj2 = new Object(); ob

三十九、python學習之Django框架(二):請求、URL路徑引數、查詢字串、請求體(表單，非表單)、請求頭

一、請求 1.flask中,利用HTTP協議想伺服器傳參的幾種途徑 1.1 提取URL的特定部分,可以在伺服器端的路由中用正則表示式擷取: 如:/weather/2018 //前端傳送請求: $.ajax({ url:'http://www.baidu.com/

“全棧2019”Java第三十九章：構造函數、構造方法、構造器

語言 tel https 全棧工程師 alt 頭條時間公眾難度初級學習時間 10分鐘適合人群零基礎開發語言 Java 開發環境 JDK v11 IntelliJ IDEA v2018.3 文章原文鏈接 “全棧2019”Java第三十九章：構造函數、構造

MyBatis總結(二十九)--where、trim、choose、set、foreach使用

本文內容來自山矽谷詳細情況可參考下面給出xml配置。請注意該xml檔案中的註釋資訊。這就是各種標籤的使用例項 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE mapp

十九、物件的構造順序

C++中的類可以定義多個物件，物件的構造順序是怎樣的？ 1、物件的構造順序一對於區域性物件：當程式執行流到達物件的定義語句時進行構造：物件定義->構造 #include <stdio.h> class Test { private: int mi; public: T

二十九、scrapy構造併發送請求

1. 翻頁請求的思路

2. 構造Request物件，併發送請求

2.1 實現方法

2.2 騰訊招聘爬蟲

2.3 程式碼實現

2.4 scrapy.Request的更多引數

3. meta引數的使用

4. BaseItem的使用

4.1 BaseItem能夠做什麼

4.2 定義BaseItem

4.3 使用BaseItem

4.4 注意：

相關推薦