scrapy-redis整合scrapy-splash使用教程

阿新 • • 發佈：2019-02-10

本文對scrapy-redis和scrapy-splash的配置描述不會很詳細，主要在於講解scrapy-redis整合scrapy-splash方法

scrapy-redis使用

配置

可以採用全域性配置，也可以採用custom_settings方式覆蓋

全域性配置

區域性配置

當一個工程裡面有多個spider時，無法全域性配置的方式來使用scrapy-redis，只能採用區域性配置。最簡單的方法是將scrapy-redis的配置寫在custom_settings中。

custom_settings= {
            "REDIS_URL" 
 : "redis://192.168.5.174:6379/3",
            "SCHEDULER" : "scrapy_redis.scheduler.Scheduler",
            "DUPEFILTER_CLASS" : "scrapy_redis.dupefilter.RFPDupeFilter",
            #redis中資料型別為set時設定此項為True，預設為False
            "REDIS_START_URLS_AS_SET" : True,
            "ITEM_PIPELINES" : {
                'scrapy_redis.pipelines.RedisPipeline' 
: 300
            }
        }

但是在每個spider中都加上這個配置又顯得太繁瑣，因此採用繼承RedisSpider的方法來重寫相關配置

重寫update_settings方法

'''
封裝了scrapy-redis的基本配置，無需修改setting.py即可使用scrapy-redis分散式爬蟲
覆蓋順序：custom_settings>redis_settings>setting.py
因此仍然可以使用setting.py中的DOWNLOADER_MIDDLEWARES，如果不需要可以在custom_settings覆蓋
'''
class 
 MyRedisSpider(RedisSpider):

    redis_url = None

    def __init__(self , *args, **kwargs):
        super(MyRedisSpider, self).__init__(*args, **kwargs)

    @classmethod
    def update_settings(cls, settings):
        redis_settings = {
            "REDIS_URL" : None,
            "SCHEDULER" : "scrapy_redis.scheduler.Scheduler",
            "DUPEFILTER_CLASS" : "scrapy_redis.dupefilter.RFPDupeFilter",
            #redis中資料型別為set時設定此項為True，預設為False
            "REDIS_START_URLS_AS_SET" : True,
            "ITEM_PIPELINES" : {
                'scrapy_redis.pipelines.RedisPipeline': 300
            }
        }
        #子類的配置可以覆蓋redis_settings
        #redis_url必須配置custom_settings或類變數中
        if(cls.custom_settings is not None):
            cls.custom_settings = dict(redis_settings, **cls.custom_settings)
        else:
            cls.custom_settings = redis_settings
        if(cls.redis_url is not None):
            cls.custom_settings["REDIS_URL"] = cls.redis_url
        settings.setdict(cls.custom_settings or {}, priority='spider')

在spider中使用

scrapy-redis預設一次從redis中取出20條url資料，並通過yield Request方式執行，但是在實際使用過程中，redis中並不會直接儲存url，而是在程式中拼接，因此需要重寫make_request_from_data方法。

'''
實際業務中，在redis中使用set型別儲存的公司名稱，並且需要結合selenium呼叫瀏覽器傳送請求
'''
class MySpider(MyRedisSpider):

    name="my_spider"
    allowed_domains = ["localhost"]

    redis_key = 'companies'
    redis_url = 'redis://localhost:6379/3'
    #scrapy第一次請求的地址，可以為任意可訪問的地址。公司名稱會拼接到該地址的param中
    url = "http://localhost"
#     custom_settings = {
#         "REDIS_URL" : "redis://localhost:6379/3"
#     }

    '''
    此處重寫的RedisSpider中的方法，data為redis中的一行資料
    注：此處因為需要呼叫瀏覽器，只能通過url來進行傳遞company引數，url為任意可訪問地址即可。
    正常請求網頁拼接url的方式相同
    '''
    def make_request_from_data(self, data):
        '''
        :params data bytes, Message from redis
        '''
        #url為任意可以訪問的地址即可
        company = bytes_to_str(data, self.redis_encoding)
        url = self.url +"?company=" + company
        return self.make_requests_from_url(url)


    def parse(self,response):
        #解析地址中的公司名稱，response實際body並不需要
        rs = urlparse.urlparse(response.url)
        params = urlparse.parse_qs(rs.query,True)
        company = params['company'][0].decode(self.redis_encoding)
        self.logger.debug(company)
        #呼叫瀏覽器及爬蟲程式碼省略

scrapy-splash

配置

scrapy-redis整合scrapy-splash

Spider

class MySplashSpider(MyRedisSpider):

    name="my_splash_spider"
    allowed_domains = ["localhost"]

    url = "http://localhost"
    redis_url = 'redis://locaohost:6379/3'
    redis_key = 'companies'

    '''
        redis中儲存的為set型別的公司名稱，使用SplashRequest去請求網頁。
        注意：不能在make_request_from_data方法中直接使用SplashRequest（其他第三方的也不支援）,會導致方法無法執行，也不丟擲異常
        但是同時重寫make_request_from_data和make_requests_from_url方法則可以執行
    '''
    def make_request_from_data(self, data):
        '''
        :params data bytes, Message from redis
        '''
        company = bytes_to_str(data, self.redis_encoding)
        url = self.url+'/company/basic.jspx?company='+company
        return self.make_requests_from_url(url)

    def make_requests_from_url(self, url):
        return SplashRequest(url,callback=self.parse,args={'wait':3, 'html':1})

    def parse(self,response):
        soup = pq(response.body_as_unicode())
        #以下省略

DUPEFILTER_CLASS

scrapy-redis中配置了”DUPEFILTER_CLASS” : “scrapy_redis.dupefilter.RFPDupeFilter”，會覆蓋scrapy-splash配置的DUPEFILTER_CLASS = ‘scrapy_splash.SplashAwareDupeFilter’
查看了scrapy_splash.SplashAwareDupeFilter原始碼後，發現他繼承了scrapy.dupefilter.RFPDupeFilter，並重寫了request_fingerprint()方法。比較scrapy.dupefilter.RFPDupeFilter和scrapy_redis.dupefilter.RFPDupeFilter中的request_fingerprint()方法後，發現是一樣的，因此重寫了一個SplashAwareDupeFilter，繼承scrapy_redis.dupefilter.RFPDupeFilter，其他程式碼不變。

# -*- coding: utf-8 -*-
"""
To handle "splash" Request meta key properly a custom DupeFilter must be set.
See https://github.com/scrapy/scrapy/issues/900 for more info.
"""
from __future__ import absolute_import

from copy import deepcopy

from scrapy.utils.request import request_fingerprint
from scrapy.utils.url import canonicalize_url
from scrapy_splash.utils import dict_hash

from scrapy_redis.dupefilter import RFPDupeFilter




def splash_request_fingerprint(request, include_headers=None):
    """ Request fingerprint which takes 'splash' meta key into account """

    fp = request_fingerprint(request, include_headers=include_headers)
    if 'splash' not in request.meta:
        return fp

    splash_options = deepcopy(request.meta['splash'])
    args = splash_options.setdefault('args', {})

    if 'url' in args:
        args['url'] = canonicalize_url(args['url'], keep_fragments=True)

    return dict_hash(splash_options, fp)


class SplashAwareDupeFilter(RFPDupeFilter):
    """
    DupeFilter that takes 'splash' meta key in account.
    It should be used with SplashMiddleware.
    """
    def request_fingerprint(self, request):
        return splash_request_fingerprint(request)

還需要修改MyRedisSpider，將裡面的DUPEFILTER_CLASS改為上述類路徑。
注：方法能否可行還待驗證

scrapy-redis整合scrapy-splash使用教程

本文對scrapy-redis和scrapy-splash的配置描述不會很詳細，主要在於講解scrapy-redis整合scrapy-splash方法 scrapy-redis使用配置可以採用全域性配置，也可以採用custom

Scrapy-redis改造scrapy實現分布式多進程爬取

ads 爬取 eml rip push pri ruby lis article 一.基本原理： Scrapy-Redis則是一個基於Redis的Scrapy分布式組件。它利用Redis對用於爬取的請求(Requests)進行存儲和調度(Schedule)，並對爬取產生的項

scrapy-redis 和 scrapy ？

一、scrapy和scrapy-redis的主要區別在哪裡？個人認為，scrapy和scrapy-redis不應該討論區別。scrapy 是一個通用的爬蟲框架，其功能比較完善，可以幫你迅速的寫一個簡單爬蟲，並且跑起來。scrapy-redis是為了更方便地實

scrapy-redis實現scrapy分散式爬取分析

（1）在“http://www.zhihu.com/question/20899988”中，提到的： “那麼，假設你現在有100臺機器可以用，怎麼用python實現一個分散式的爬取演算法呢？我們把這100臺中的99臺運算能力較小的機器叫作slave，另外一臺較大的機器叫作

Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬蟲框架整合

sta 端口 pro ron 配置文件詳情 pre 流程 .py 簡介：給正在學習的小夥伴們分享一下自己的感悟，如有理解不正確的地方，望指出，感謝~ 首先介紹一下這個標題吧~ 1. Scrapy：是一個基於Twisted的異步IO框架，有了這個框架，我們就不需要等待當前U

python下使用scrapy-redis模組分散式爬蟲的爬蟲專案部署詳細教程————————gerapy

1.使用gerapy進行分散式爬蟲管理準備工作：首先將你使用scrapy-redis寫的分散式爬蟲全部完善模組準備：安裝： pip install pymongo【依賴模組】 pip install gerapy 2.在本地建立部署專案的資料夾

scrapy基礎知識之 Scrapy-Redis分布式策略：

空間 spider head spi 指紋負責 edi all redis Scrapy-Redis分布式策略：假設有四臺電腦：Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2，任意一臺電腦都可以作為 Master端或 Slave

第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中

分布式爬蟲 times 操作加載 ger 目錄需要 ini space 第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中，判斷URL是否重復布隆過濾器(Bloom Filte

python高級之scrapy-redis

int art sts {} param 本質 opened div pipe 目錄： scrapy-redis組件 scrapy-redis配置示例一、scrapy-redis組件 1、scrapy-redis簡介： scrapy-redis是一個基於redis

【scrapy】scrapy-redis 全國建築市場基本信息采集

redis callback ids super call connect info turn 一個簡介環境: python3.6 　　 scrapy 1.5 使用scrapy-redis 開發的分布式采集demo。一次簡單的例子,供初學者參考(覺得有更好的方式

解決 Scrapy-Redis 空跑問題，鏈接跑完後自動關閉爬蟲

blank 發的內部 ide @class otc sta lis 停止 Scrapy-Redis 空跑問題，redis_key鏈接跑完後，自動關閉爬蟲問題：scrapy-redis框架中，reids存儲的xxx:requests已經爬取完畢，但程序仍然一直運行，如何自

scrapy-redis使用以及剖析

dex localhost 取數據 param wls 默認 pid list isp scrapy-redis是一個基於redis的scrapy組件，通過它可以快速實現簡單分布式爬蟲程序，該組件本質上提供了三大功能： scheduler - 調度器 dupefilter

scrapy-redis(七)：部署scrapy

list 需要 ret clas egg 定義 jsb awl fcm 一般我們寫好scrapy爬蟲，如果需要啟動的話，需要進入scrapy項目的根目錄，然後運行以下命令： scrapy crawl {spidername} 這樣我們就可以在終端查看到爬蟲信息了。但爬蟲運行

爬蟲 - scrapy-redis分布式爬蟲

等待 install blank lec name odi requests scrapy timeout 簡介 Scrapy-Redis則是一個基於Redis的Scrapy分布式組件。它利用Redis對用於爬取的請求(Requests)進行存儲和調度(Schedule)

Scrapy-Redis的安裝和使用

org adt tps 擴展模塊 pytho 方便 imp scrapy ins Scrapy-Redis是Scrapy的分布式擴展模塊，有了它，我們就可以方便地實現Scrapy分布式爬蟲的搭建。GitHub：https://github.com/rmax/scrapy-r

scrapy-redis

pass 功能轉換成 his int headers _id 處理 ref scrapy-redis是一個基於redis的scrapy組件，通過它可以快速實現簡單分布式爬蟲程序，該組件本質上提

scrapy-redis scrapy-redis使用以及剖析

scrapy-redis使用以及剖析 scrapy-redis是一個基於redis的scrapy元件，通過它可以快速實現簡單分散式爬蟲程式，該元件本質上提供了三大功能： scheduler - 排程器 dupefilter - URL去重規則（

潭州課堂25班：Ph201805201 爬蟲高階第十二課 Scrapy-redis分佈專案實戰 (課堂筆記)

建代理池， 1，獲取多個網站的免費代理IP， 2，對免費代理進行檢測，》》》》》攜帶IP進行請求， 3，檢測到的可用IP進行儲存， 4，實現api介面，方便呼叫， 5，各個元件的除錯，西剌代理： http://www.xicidaili.com/nn/ 66

淺談深度優先和廣度優先(scrapy-redis)

首先先談談深度優先和廣度優先的定義深度優先搜尋演算法（英語：Depth-First-Search，DFS）是一種用於遍歷或搜尋樹或圖的演算法。沿著樹的深度遍歷樹的節點，儘可能深的搜尋樹的分支。當節點v的所在邊都己被探尋過，搜尋將回溯到發現節點v的那條邊的起始節點。這一過程一直進行到已發現從源節點可達的所有

定製起始url(scrapy-redis)

爬蟲：（在這裡不用配置start_url，直接可以取redis裡面取start_url，可以多個）from scrapy_redis.spiders import RedisSpider# class ChoutiSpider(scrapy.Spider):class ChoutiSpider(Redis

scrapy-redis整合scrapy-splash使用教程

scrapy-redis使用

配置

全域性配置

區域性配置

重寫update_settings方法

在spider中使用

scrapy-splash

配置

scrapy-redis整合scrapy-splash

Spider

DUPEFILTER_CLASS

相關推薦