scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？

阿新 • • 發佈：2018-11-21

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？

1. 背景

這裡寫圖片描述
根據scrapy-redis分散式爬蟲的原理，多臺爬蟲主機共享一個爬取佇列。當爬取佇列中存在request時，爬蟲就會取出request進行爬取，如果爬取佇列中不存在request時，爬蟲就會處於等待狀態，行如下：

E:\Miniconda\python.exe E:/PyCharmCode/redisClawerSlaver/redisClawerSlaver/spiders/main.py
2017-12-12 15:54:18 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapybot)
2017-12-12 15:54:18 [scrapy.utils.log] INFO: Overridden settings: {'SPIDER_LOADER_WARN_ONLY': True}
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2017-12-12 15:54:18 [myspider_redis] INFO: Reading start URLs from redis key 'myspider:start_urls' (batch size: 110, encoding: utf-8
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'redisClawerSlaver.middlewares.ProxiesMiddleware',
 'redisClawerSlaver.middlewares.HeadersMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled item pipelines:
['redisClawerSlaver.pipelines.ExamplePipeline',
 'scrapy_redis.pipelines.RedisPipeline']
2017-12-12 15:54:18 [scrapy.core.engine] INFO: Spider opened
2017-12-12 15:54:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-12-12 15:55:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-12-12 15:56:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

可是，如果所有的request都已經爬取完畢了呢？這件事爬蟲程式是不知道的，它無法區分結束和空窗期狀態的不同，所以會一直處於上面的那種等待狀態，也就是我們說的空跑。
那有沒有辦法讓爬蟲區分這種情況，自動結束呢？

2. 環境

系統：win7
scrapy-redis
redis 3.0.5
python 3.6.1

3. 解決方案

從背景介紹來看，基於scrapy-redis分散式爬蟲的原理，爬蟲結束是一個很模糊的概念，在爬蟲爬取過程中，爬取佇列是一個不斷動態變化的過程，隨著request的爬取，又會有新的request進入爬取佇列。進進出出。爬取速度高於填充速度，就會有佇列空窗期（爬取佇列中，某一段時間會出現沒有request的情況），爬取速度低於填充速度，就不會出現空窗期。

所以對於爬蟲結束這件事來說，只能模糊定義，沒有一個精確的標準。
所以，下面這兩種方案都是一種大概的思路。

3.1. 利用scrapy的關閉spider擴充套件功能

參考官方文件：http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/extensions.html

# 關閉spider擴充套件
class scrapy.contrib.closespider.CloseSpider
當某些狀況發生，spider會自動關閉。每種情況使用指定的關閉原因。

關閉spider的情況可以通過下面的設定項配置：

CLOSESPIDER_TIMEOUT
CLOSESPIDER_ITEMCOUNT
CLOSESPIDER_PAGECOUNT
CLOSESPIDER_ERRORCOUNT

CLOSESPIDER_TIMEOUT

CLOSESPIDER_TIMEOUT
預設值: 0

一個整數值，單位為秒。如果一個spider在指定的秒數後仍在執行， 它將以 closespider_timeout 的原因被自動關閉。 如果值設定為0（或者沒有設定），spiders不會因為超時而關閉。

CLOSESPIDER_ITEMCOUNT

CLOSESPIDER_ITEMCOUNT
預設值: 0

一個整數值，指定條目的個數。如果spider爬取條目數超過了指定的數， 並且這些條目通過item pipeline傳遞，spider將會以 closespider_itemcount 的原因被自動關閉。

CLOSESPIDER_PAGECOUNT

CLOSESPIDER_PAGECOUNT
0.11 新版功能.

預設值: 0

一個整數值，指定最大的抓取響應(reponses)數。 如果spider抓取數超過指定的值，則會以 closespider_pagecount 的原因自動關閉。 如果設定為0（或者未設定），spiders不會因為抓取的響應數而關閉。

CLOSESPIDER_ERRORCOUNT

CLOSESPIDER_ERRORCOUNT
0.11 新版功能.

預設值: 0

一個整數值，指定spider可以接受的最大錯誤數。 如果spider生成多於該數目的錯誤，它將以 closespider_errorcount 的原因關閉。 如果設定為0（或者未設定），spiders不會因為發生錯誤過多而關閉。

示例：開啟 settings.py，新增一個配置項，如下

# 爬蟲執行超過23.5小時，如果爬蟲還沒有結束，則自動關閉
CLOSESPIDER_TIMEOUT = 84600

特別注意：如果爬蟲在規定時限沒有把request全部爬取完畢，此時強行停止的話，爬取佇列中就還會存有部分request請求。那麼爬蟲下次開始爬取時，一定要記得在master端對爬取佇列進行清空操作。
另外如果是分散式爬蟲，先確認幾臺機器同時跑，拿CLOSESPIDER_ITEMCOUNT來說，比如要拿100條資料，10臺機器一起跑，那麼CLOSESPIDER_ITEMCOUNT=10即可

第二種方案：改scrapy_redis的原始碼，不適合分散式部署

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？ 1. 背景根據scrapy-redis分散式爬蟲的原理，多臺爬蟲主機共享一個爬取佇列。當爬取佇列中存在request時，爬蟲就會取出request進行爬取，如果爬取佇列中不存在request時，爬蟲就會處於等待狀

scrapy | scrapy-redis實現分散式爬取：原理，實戰案例（虛擬機器）

1.概念：分散式爬蟲由於需要爬取的資料量大，任務多，一臺機器效率太低，需要多臺機器共同協作處理。分散式爬蟲將多臺主機組合起來，共同完成一個爬取任務，快速高效地提高爬取效率。分散式爬蟲可以分為若干個分散式層級，不同的應用可能由其中部分層級構成。大型分散式爬蟲主

使用Scrapy-redis實現分散式爬取

Scrapy是一個比較好用的Python爬蟲框架，你只需要編寫幾個元件就可以實現網頁資料的爬取。但是當我們要爬取的頁面非常多的時候，單個主機的處理能力就不能滿足我們的需求了（無論是處理速度還是網路請求的併發數），這時候分散式爬蟲的優勢就顯現出來。而Scrapy-Redis則是一個基於Redis的

Scrapy框架基於crawl爬取京東商品資訊爬蟲

Items.py檔案 # -*- coding: utf-8 -*- # Define here the models for your scraped items # See documentation in: # https://doc.scrapy.org/en/latest/topics

解決Scrapy-Redis爬取完畢之後繼續空跑的問題

1. 背景根據scrapy-redis分散式爬蟲的原理，多臺爬蟲主機共享一個爬取佇列。當爬取佇列中存在request時，爬蟲就會取出request進行爬取，如果爬取佇列中不存在request時，爬蟲就會處於等待狀態，行如下： E:\Miniconda\python.exe E:/PyCh

Scrapy實現去重，使用Redis實現增量爬取

一、使用場景：定時爬取某網站的資料，每次爬取只爬取並儲存新增的資料到資料庫中，之前存過的資料不再入庫。 scrapy官方文件的去重模組，只能實現對當前抓取資料的去重，並不會和資料庫裡的資料做對比。當有一天需求變了，在你向mysql 資料庫儲存的時候，發現已經有一部分已經

Scrapy框架的學習(2.scrapy入門，簡單爬取頁面，並使用管道(pipelines)儲存資料)

上個部落格寫了： Scrapy的概念以及Scrapy的詳細工作流程 https://blog.csdn.net/wei18791957243/article/details/86154068 1.scrapy的安裝 pip install scrapy

python爬蟲十一：scrapy框架爬取天氣，存入資料庫

小白學習：轉：https://zhuanlan.zhihu.com/p/268854121.cmd下scrapy startproject 專案名2.我一般都是在pycharm中編寫程式碼，所以我會在idea中引入專案，這裡不知道如何在pycharm中下載scrapy模組的童

scrapy初探之實現爬取小說

scrapy 爬取小說一、前言上文說明了scrapy框架的基礎知識，本篇實現了爬取第九中文網的免費小說。二、scrapy實例創建 1、創建項目 C:\Users\LENOVO\PycharmProjects\fullstack\book9>scrapy startproject book

Request爬取網站（seo.chinaz.com）百度權重的查詢結果

save 網址 gecko rom 圖片頁面隨機數 user gen 一：腳本需求利用Python3查詢網站權重並自動存儲在本地數據庫（Mysql數據庫）中，同時導出一份網站權重查詢結果的EXCEL表格數據庫類型：MySql 數據庫表單名稱：website_w

python+scrapy入門教程之爬取騰訊招聘職位資訊

我是用的IDE是pycharm,要想使用scrapy我們先安裝模組file-settings-project Interpreter 安裝完成之後我們開啟Terminal 在終端輸入：scrapy startproject tencent 建立spiders我們需要進入spi

scrapy框架用post 爬取網站資料的兩種方法區別

post請求，一定要重新呼叫父類的 start_requests(self)方法方法1：（推薦）重構start_requests def start_requests(self): data = { 'source': 'index_na

java爬蟲爬取資源，小白必須會的入門程式碼塊

java作為目前最火的語言之一，他的實用性也在被無數的java語言愛好者逐漸的開發，目前比較流行的爬取資源，用java來做也更簡單一些,下面是爬取網頁上所有手機型號，引數等極為簡便的資料 package day1805; import java.io.IOException; im

使用scrapy和selenium結合爬取淘寶資訊

首先，發現淘寶資訊是需要進行下拉載入資訊，否則商品資訊為空因此，在middleware.py中設定： class ScrapyseleniumspiderDownloaderMiddleware(object): # def __init__(self):

Scrapy框架的應用———爬取糗事百科檔案

專案主程式碼： 1 import scrapy 2 from qiushibaike.items import QiushibaikeItem 3 4 class QiubaiSpider(scrapy.Spider): 5 name = 'qiubai' 6

第4.3章 request爬取小學3000詞語

爬蟲並不是一定要用scrapy框架，下面介紹的這個就是通過requests直接獲取的，程式碼如下生成田字格的程式碼參考第4.1章給小朋友寫的飛鳥集打亂後組詞的爬蟲 import requests import os import re from pyquery

Python3網路爬蟲：Scrapy入門實戰之爬取動態網頁圖片

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二 Scrapy相關方法介紹 1 搭建Scrapy專案 2 shell分析三網頁分析

[爬蟲入門]Python中使用scrapy框架實現圖片爬取

轉載： https://www.jianshu.com/p/c1704b4dc04d 連結中作者寫的十分詳細，雖然示例中的網站已經無法訪問，但是零基礎效仿也能試著自己做！真的很良心的文章，作為零基礎入門的小白可以靠看註釋和函式關係猜測出函式用法

利用scrapy框架遞迴爬取菜譜網站

介紹：最近學習完scrapy框架後，對整個執行過程有了進一步的瞭解熟悉。於是想著利用該框架對食譜網站上的美食圖片進行抓取，並且分別按照各自的命名進行儲存。 1、網頁分析爬取的網站是www.xinshipu.com,在爬取的過程中我發現使用xpath對網頁進行解析時總是找不到對應的標籤

python3 scrapy框架crawl模版爬取京東產品並寫入mysql

crawl將自動對所有連結進行分析，將符合的連結資料爬取。官方文件，其中價格，好評率需要用瀏覽器抓包分析真實地址，本文所用的基礎技術包括：sql語句，re表示式,xpath表示式，基本的網路知識和python基礎 jd.py # -*- codi

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？

1. 背景

2. 環境

3. 解決方案

3.1. 利用scrapy的關閉spider擴充套件功能

相關推薦