定製起始url(scrapy-redis)

阿新 • • 發佈：2018-11-14

爬蟲：（在這裡不用配置start_url，直接可以取redis裡面取start_url，可以多個）
from   scrapy_redis.spiders import RedisSpider
# class ChoutiSpider(scrapy.Spider):
class ChoutiSpider(RedisSpider):
    name = 'baidu'##在這裡設定了這個name，那麼在redispider裡面就可以按照這個key來找到裡面對應的值（開始url，可能多個），
　　#key的格式是:self.redis_key = self.redis_key % {'name': self.name} 

    allowed_domains = ['baidu.com']

　　def parse(self, response):
    　　print('執行操作')
    　　print(response)



在settings裡面的配置：

#true的話，就是集合，false的話，就為列表
REDIS_START_URLS_AS_SET=False#預設是false，列表的格式取資料出來
如果是列表的話，取資料是lpop(key)，key就是下面的這個
如果是集合的話，集合取資料是spop(key)，例如：spop('baidu:start_urls')>>後面就是對應的全部的開始url（可以多個）

# REDIS_START_URLS_KEY = '%(name)s:start_urls'#不設定預設是這個,這個是存入redis裡面的key，可以根據這來取value，例如:baidu:start_urls


redis存入開始rul:
在了一個.py檔案裡面存入開始url
列表：

import  redis
conn=redis.Redis(host='127.0.0.1',port=6379)
conn.lpush('baidu:start_urls','http://www.baidu.com')
如果是settings裡面：

REDIS_START_URLS_AS_SET=False的話，就是列表的形式，存入就是lpush或者是rpush等操作 

如果是true的話，那麼存入就是集合的形式，sadd等操作

集合：

import  redis
conn=redis.Redis(host='127.0.0.1',port=6379)
conn.sadd('baidu:start_urls','http://www.baidu.com')##按照這個格式來存資料的
print(conn.smembers('baidu:start_urls'))



spider-redis裡面的spider原始碼分析：

class RedisMixin(object):
    """Mixin class to implement reading urls from a redis queue."""
    redis_key = None
    redis_batch_size = None
    redis_encoding = None

    # Redis client placeholder.
    server = None

    def start_requests(self):
        """Returns a batch of start requests from redis."""
        return self.next_requests()

    def setup_redis(self, crawler=None):
        """Setup redis connection and idle signal.

        This should be called after the spider has set its crawler object.
        """
        if self.server is not None:
            return

        if crawler is None:
            # We allow optional crawler argument to keep backwards
            # compatibility.
            # XXX: Raise a deprecation warning.
            crawler = getattr(self, 'crawler', None)

        if crawler is None:
            raise ValueError("crawler is required")

        settings = crawler.settings

#####去配置檔案裡面那這個其始url,START_URLS_KEY = '%(name)s:start_urls',如果沒有配置檔案的話，就讀取後面部分
        if self.redis_key is None:
            self.redis_key = settings.get(
                'REDIS_START_URLS_KEY', defaults.START_URLS_KEY,
            )##在這裡可以自己設定這個格式，REDIS_START_URLS_KEY在settigs裡面設定成自己想要儲存的格式，注意：自己就按照這個
，格式進行儲存，下面就以這個格式作為鍵進行查詢到相對應的全部的開始url


        self.redis_key = self.redis_key % {'name': self.name}####在這裡設定這個name的redis查詢的key,如果在redis裡面有這個key存在的話，就取出裡面的值進行查詢
        '''
        所以可以自己在新增開始到這個name裡面去，這個key格式是固定的,START_URLS_KEY = '%(name)s:start_urls'''
######寫入redis的這個key裡面存進去，裡面可以放url，多個，然後拿到多個開始的url
        if not self.redis_key.strip():
            raise ValueError("redis_key must not be empty")

        if self.redis_batch_size is None:
            # TODO: Deprecate this setting (REDIS_START_URLS_BATCH_SIZE).
            self.redis_batch_size = settings.getint(
                ###取配置檔案裡面取值，後面是int的型別，轉化為int的型別
                'REDIS_START_URLS_BATCH_SIZE',
                settings.getint('CONCURRENT_REQUESTS'),
            )

        try:
            self.redis_batch_size = int(self.redis_batch_size)
        except (TypeError, ValueError):
            raise ValueError("redis_batch_size must be an integer")

        if self.redis_encoding is None:
            self.redis_encoding = settings.get('REDIS_ENCODING', defaults.REDIS_ENCODING)

        self.logger.info("Reading start URLs from redis key '%(redis_key)s' "
                         "(batch size: %(redis_batch_size)s, encoding: %(redis_encoding)s",
                         self.__dict__)

        self.server = connection.from_settings(crawler.settings)
        # The idle signal is called when the spider has no requests left,
        # that's when we will schedule new requests from redis queue
        crawler.signals.connect(self.spider_idle, signal=signals.spider_idle)

    def next_requests(self):
        """Returns a request to be scheduled or none."""
        use_set = self.settings.getbool('REDIS_START_URLS_AS_SET', defaults.START_URLS_AS_SET)
        fetch_one = self.server.spop if use_set else self.server.lpop
        ##做了判斷，如果是REDIS_START_URLS_AS_SET=True得話，那麼就為集合
        ##做了判斷，如果是REDIS_START_URLS_AS_SET=False得話，那麼就為列表
        # XXX: Do we need to use a timeout here?
        found = 0
        # TODO: Use redis pipeline execution.
        ####在下面進行尋找，如果存在這個redis_key的話，就執行，有多個就執行多個其實url，
        
        
        ''''
        下面是一直迴圈著，看有沒有其實url，在redis裡面，這個格式是,REDIS_START_URLS_KEY = '%(name)s:start_urls'>>
        當為false的時候，就是以列表的形式查詢
        conn.lpush('baidu:start_urls','http://www.baidu.com')
        當true的時候，就是集合
                
        '''
        while found < self.redis_batch_size:
            data = fetch_one(self.redis_key)##可能是spop或者是lpop
            if not data:
                # Queue empty.
                break
            req = self.make_request_from_data(data)
            if req:
                yield req
                found += 1
            else:
                self.logger.debug("Request not made from data: %r", data)

        if found:
            self.logger.debug("Read %s requests from '%s'", found, self.redis_key)

    def make_request_from_data(self, data):
        """Returns a Request instance from data coming from Redis.

        By default, ``data`` is an encoded URL. You can override this method to
        provide your own message decoding.

        Parameters
        ----------
        data : bytes
            Message from redis.

        """
        url = bytes_to_str(data, self.redis_encoding)
        return self.make_requests_from_url(url)

    def schedule_next_requests(self):
        """Schedules a request if available"""
        # TODO: While there is capacity, schedule a batch of redis requests.
        for req in self.next_requests():
            self.crawler.engine.crawl(req, spider=self)

    def spider_idle(self):
        """Schedules a request if available, otherwise waits."""
        # XXX: Handle a sentinel to close the spider.
        self.schedule_next_requests()
        raise DontCloseSpider

定製起始url(scrapy-redis)

爬蟲：（在這裡不用配置start_url，直接可以取redis裡面取start_url，可以多個）from scrapy_redis.spiders import RedisSpider# class ChoutiSpider(scrapy.Spider):class ChoutiSpider(Redis

scrapy基礎知識之 Scrapy-Redis分布式策略：

空間 spider head spi 指紋負責 edi all redis Scrapy-Redis分布式策略：假設有四臺電腦：Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2，任意一臺電腦都可以作為 Master端或 Slave

第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中

分布式爬蟲 times 操作加載 ger 目錄需要 ini space 第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中，判斷URL是否重復布隆過濾器(Bloom Filte

python高級之scrapy-redis

int art sts {} param 本質 opened div pipe 目錄： scrapy-redis組件 scrapy-redis配置示例一、scrapy-redis組件 1、scrapy-redis簡介： scrapy-redis是一個基於redis

【scrapy】scrapy-redis 全國建築市場基本信息采集

redis callback ids super call connect info turn 一個簡介環境: python3.6 　　 scrapy 1.5 使用scrapy-redis 開發的分布式采集demo。一次簡單的例子,供初學者參考(覺得有更好的方式

解決 Scrapy-Redis 空跑問題，鏈接跑完後自動關閉爬蟲

blank 發的內部 ide @class otc sta lis 停止 Scrapy-Redis 空跑問題，redis_key鏈接跑完後，自動關閉爬蟲問題：scrapy-redis框架中，reids存儲的xxx:requests已經爬取完畢，但程序仍然一直運行，如何自

scrapy-redis使用以及剖析

dex localhost 取數據 param wls 默認 pid list isp scrapy-redis是一個基於redis的scrapy組件，通過它可以快速實現簡單分布式爬蟲程序，該組件本質上提供了三大功能： scheduler - 調度器 dupefilter

Scrapy-redis改造scrapy實現分布式多進程爬取

ads 爬取 eml rip push pri ruby lis article 一.基本原理： Scrapy-Redis則是一個基於Redis的Scrapy分布式組件。它利用Redis對用於爬取的請求(Requests)進行存儲和調度(Schedule)，並對爬取產生的項

scrapy-redis(七)：部署scrapy

list 需要 ret clas egg 定義 jsb awl fcm 一般我們寫好scrapy爬蟲，如果需要啟動的話，需要進入scrapy項目的根目錄，然後運行以下命令： scrapy crawl {spidername} 這樣我們就可以在終端查看到爬蟲信息了。但爬蟲運行

爬蟲 - scrapy-redis分布式爬蟲

等待 install blank lec name odi requests scrapy timeout 簡介 Scrapy-Redis則是一個基於Redis的Scrapy分布式組件。它利用Redis對用於爬取的請求(Requests)進行存儲和調度(Schedule)

Scrapy-Redis的安裝和使用

org adt tps 擴展模塊 pytho 方便 imp scrapy ins Scrapy-Redis是Scrapy的分布式擴展模塊，有了它，我們就可以方便地實現Scrapy分布式爬蟲的搭建。GitHub：https://github.com/rmax/scrapy-r

Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬蟲框架整合

sta 端口 pro ron 配置文件詳情 pre 流程 .py 簡介：給正在學習的小夥伴們分享一下自己的感悟，如有理解不正確的地方，望指出，感謝~ 首先介紹一下這個標題吧~ 1. Scrapy：是一個基於Twisted的異步IO框架，有了這個框架，我們就不需要等待當前U

scrapy-redis

pass 功能轉換成 his int headers _id 處理 ref scrapy-redis是一個基於redis的scrapy組件，通過它可以快速實現簡單分布式爬蟲程序，該組件本質上提

scrapy-redis scrapy-redis使用以及剖析

scrapy-redis使用以及剖析 scrapy-redis是一個基於redis的scrapy元件，通過它可以快速實現簡單分散式爬蟲程式，該元件本質上提供了三大功能： scheduler - 排程器 dupefilter - URL去重規則（

潭州課堂25班：Ph201805201 爬蟲高階第十二課 Scrapy-redis分佈專案實戰 (課堂筆記)

建代理池， 1，獲取多個網站的免費代理IP， 2，對免費代理進行檢測，》》》》》攜帶IP進行請求， 3，檢測到的可用IP進行儲存， 4，實現api介面，方便呼叫， 5，各個元件的除錯，西剌代理： http://www.xicidaili.com/nn/ 66

淺談深度優先和廣度優先(scrapy-redis)

首先先談談深度優先和廣度優先的定義深度優先搜尋演算法（英語：Depth-First-Search，DFS）是一種用於遍歷或搜尋樹或圖的演算法。沿著樹的深度遍歷樹的節點，儘可能深的搜尋樹的分支。當節點v的所在邊都己被探尋過，搜尋將回溯到發現節點v的那條邊的起始節點。這一過程一直進行到已發現從源節點可達的所有

Scrapy-redis 安裝配置使用

art serve http span spa redis服務器服務器端 rap col # 安裝redis服務器端 sudo apt-get install redis-server # 安裝scrapy和scrapy-redis庫 pip i

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？ 1. 背景根據scrapy-redis分散式爬蟲的原理，多臺爬蟲主機共享一個爬取佇列。當爬取佇列中存在request時，爬蟲就會取出request進行爬取，如果爬取佇列中不存在request時，爬蟲就會處於等待狀

[爬蟲架構]使用scrapy-redis+multiprocessing構建超級爬蟲

前言：這段時間研究了一下scrapy-redis元件，有些個人實踐經歷和想法，現將其變成文字呈現出來。前方高能預警： &

scrapy-redis例項，分佈爬蟲爬取騰訊新聞，儲存在資料庫中

本篇文章為scrapy-redis的例項應用，原始碼已經上傳到github: https://github.com/Voccoo/NewSpider 使用到了： python 3.x redis scrapy-redis pymysql Redis-Desktop-Manage

定製起始url(scrapy-redis)

相關推薦