1. 程式人生 > >python scrapy d 去重

python scrapy d 去重

1. scrapy對request的URL去重

yield scrapy.Request(url, self.parse, dont_filter=False)

注意這個引數:dont_filter=False

2. Jobs: 暫停,恢復爬蟲

啟用一個爬蟲的持久化,執行以下命令:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

然後,你就能在任何時候安全地停止爬蟲(按Ctrl-C或者傳送一個訊號)。
恢復這個爬蟲也是同樣的命令:

scrapy crawl somespider -s
 JOBDIR=crawls/somespider-1

這樣爬蟲斷掉後,再啟動會接著上次的 url 跑。

詳細請看 https://www.howtoing.com/scra...

如果命令列裡不想看到那麼多輸出的話,可以加個 -L WARNING 引數
執行爬蟲如:

scrapy crawl spider1 -L WARNING

不列印Debug資訊,可以清楚得看到執行過程。