1. 程式人生 > 程式設計 >Scrapy爬蟲檔案批量執行的實現

Scrapy爬蟲檔案批量執行的實現

Scrapy批量執行爬蟲檔案的兩種方法:

1、使用CrawProcess實現

https://doc.scrapy.org/en/latest/topics/practices.html

2、修改craw原始碼+自定義命令的方式實現

(1)我們開啟scrapy.commands.crawl.py檔案可以看到:

 def run(self,args,opts):
    if len(args) < 1:
      raise UsageError()
    elif len(args) > 1:
      raise UsageError("running 'scrapy crawl' with more than one spider is no longer supported")
    spname = args[0]

    self.crawler_process.crawl(spname,**opts.spargs)
    self.crawler_process.start()

這是crawl.py檔案中的run()方法,在此可以指定執行哪個爬蟲,要執行所有的爬蟲,則需要更改這個方法。

run()方法中通過crawler_process.crawl(spname,**opts.spargs)實現了爬蟲檔案的執行,spname代表爬蟲名。要執行多個爬蟲檔案,首先要獲取所有的爬蟲檔案,可以通過crawler_process.spider_loader.list()實現。

(2)實現過程:

a、在spider目錄的同級目錄下建立存放原始碼的資料夾mycmd,並在該目錄下建立檔案mycrawl.py;

b、將crawl.py中的程式碼複製到mycrawl.py檔案中,然後進行修改:

#修改後的run() 方法
  def run(self,opts):
    #獲取爬蟲列表
    spd_loader_list = self.crawler_process.spider_loader.list()
    #遍歷各爬蟲
    for spname in spd_loader_list or args:
      self.crawler_process.crawl(spname,**opts.spargs)
      print("此時啟動的爬蟲:"+spname)
    self.crawler_process.start()

同時可以修改:

 def short_desc(self):
    return "Run all spider"

c、在mycmd資料夾下新增一個初始化檔案__init__.py,在專案配置檔案(setting.py)中新增格式為“COMMANDS_MODULES='專案核心目錄.自定義命令原始碼目錄'”的配置;

例如:COMMANDS_MODULE = 'firstpjt.mycmd'

隨後通過命令“scrapy -h”,可以檢視到我們新增的命令mycrawl

這樣,我們就可以同時啟動多個爬蟲檔案了,使用命令:

scrapy mycrawl --nolog

Scrapy爬蟲檔案批量執行的實現

到此這篇關於Scrapy爬蟲檔案批量執行的實現的文章就介紹到這了,更多相關Scrapy 批量執行內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!