詳解向scrapy中的spider傳遞引數的幾種方法(2種)

阿新 • • 發佈：2020-09-29

有時需要根據專案的實際需求向spider傳遞引數以控制spider的行為，比如說，根據使用者提交的url來控制spider爬取的網站。在這種情況下，可以使用兩種方法向spider傳遞引數。

第一種方法，在命令列用crawl控制spider爬取的時候，加上-a選項，例如：

scrapy crawl myspider -a category=electronics

然後在spider裡這樣寫：

import scrapy

class MySpider(scrapy.Spider):
  name = 'myspider'

  def __init__(self,category=None,*args,**kwargs):
    super(MySpider,self).__init__(*args,**kwargs)
    self.start_urls = ['http://www.example.com/categories/%s' % category]
    # ...

也就是在spider的建構函式里加上帶入的引數即可。

第二種方法，在用scrapyd控制spider的時候，可以向schedule.json傳送-d選項加入引數，同樣的，也需要在spider的建構函式裡如上寫法。例如：

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1

另外，如果需要在scrapy發出的request上加入引數，可以使用request的meta引數，然後就可以相應的在返回的respose物件中獲得傳入的引數。這在某些情況下相當有用，比如說需要確定這個url是哪個使用者請求爬取的，可以先用上面兩種方法之一將資訊傳遞給spider，spider就可以把這個資訊加入到request中，然後在相應的reponse中就可以將這個資訊與從url的頁面中獲得的資訊一起存入資料庫。例如：

def parse_page1(self,response):
  item = MyItem()
  item['main_url'] = response.url
  request = scrapy.Request("http://www.example.com/some_page.html",callback=self.parse_page2)
  request.meta['item'] = item
  return request

def parse_page2(self,response):
  item = response.meta['item']
  item['other_url'] = response.url
  return item

到此這篇關於詳解向scrapy中的spider傳遞引數的幾種方法(2種)的文章就介紹到這了,更多相關scrapy spider傳遞引數內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

詳解向scrapy中的spider傳遞引數的幾種方法(2種)

詳解向scrapy中的spider傳遞引數的幾種方法(2種)

詳解java程式碼中init method和destroy method的三種使用方式

scrapy中如何設定應用cookies的方法(3種)

如何向scrapy中的spider傳遞引數的幾種方法

詳解C語言中的指標與陣列的定義與使用

詳解Spring Security中的HttpBasic登入驗證模式

詳解SQL Server 中 JSON_MODIFY 的使用

詳解SqlServer資料庫中Substring函式的用法

詳解SQL Server中的事務與鎖問題

詳解在Python中以絕對路徑或者相對路徑匯入檔案的方法

詳解C/C++中const限定符總結

詳解為什麼Vue中不要用index作為key(diff演算法)

Python pandas 列轉行操作詳解(類似hive中explode方法)

Java向Runnable執行緒傳遞引數方法例項解析

object detection api調參詳解（兼SSD演演算法引數詳解）

詳解JAVA Spring 中的事件機制

詳解c# PLINQ中的分割槽

[OHIF-Viewers]醫療數字閱片-醫學影像-REACT向事件處理程式傳遞引數-.bind-傳遞函式給元件

React 【事件處理】React事件和DOM事件、this關鍵字的處理、向事件處理程式傳遞引數、向父元件傳遞引數、React事件機制

詳解在spring中使用JdbcTemplate操作資料庫的幾種方式

詳解向scrapy中的spider傳遞引數的幾種方法(2種)

相關推薦