scrapy-redis的搭建分散式爬蟲去重

阿新 • • 發佈：2021-07-14

master：
一、spider檔案
1.需要更改繼承的類
from scrapy_redis.spiders import RedisSpider

2.註釋掉start_urls

3.在爬蟲目錄下新建立一個redis_urls.py檔案，放所有的URL到redis資料庫的列表中

4.回到爬蟲檔案中，寫一個redis_key = '列表的key'

二.settings.py檔案

 1 #配置分散式的主要配置選項
 2 #1.配置排程器；
 3 SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
 4 #2.配置去重器
 5 DUPEFILTER_CLASS = ' 
scrapy_redis.dupefilter.RFPDupeFilter'
 6 #3.配置排程佇列
 7 SCHEDULER_QUEUE_CLASS='scrapy_redis.queue.PriorityQueue'
 8 #4.配置redis主機名
 9 REDIS_HOST = 'localhost'
10 #5.配置redis埠號
11 REDIS_PORT = 6379

三.如果要解決scrapy-redis空跑問題
1.在專案目錄下，新建一個extensions.py檔案，寫如下程式碼：

 1 import logging
 2 
 3 from scrapy import signals
 
 4 from scrapy.exceptions import NotConfigured
 5 
 6 logging = logging.getLogger(__name__)
 7 
 8 
 9 class RedisSpiderSmartIdleClosedExensions(object):
10 
11 def __init__(self, idle_number, crawler):
12 self.crawler = crawler
13 self.idle_number = idle_number
14 self.idle_list = []
15 self.idle_count = 0
 
16 
17 @classmethod
18 def from_crawler(cls, crawler):
19 # first check if the extension should be enabled and raise
20 
21 # NotConfigured otherwise
22 
23 if not crawler.settings.getbool('MYEXT_ENABLED'):
24 raise NotConfigured
25 
26 if not 'redis_key' in crawler.spidercls.__dict__.keys():
27 raise NotConfigured('Only supports RedisSpider')
28 
29 # get the number of items from settings
30 
31 idle_number = crawler.settings.getint('IDLE_NUMBER', 360)
32 
33 # instantiate the extension object
34 
35 ext = cls(idle_number, crawler)
36 
37 # connect the extension object to signals
38 
39 crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
40 
41 crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
42 
43 crawler.signals.connect(ext.spider_idle, signal=signals.spider_idle)
44 
45 return ext
46 
47 def spider_opened(self, spider):
48 spider.logger.info("opened spider {}, Allow waiting time:{} second".format(spider.name, self.idle_number * 5))
49 
50 def spider_closed(self, spider):
51 spider.logger.info(
52 "closed spider {}, Waiting time exceeded {} second".format(spider.name, self.idle_number * 5))
53 
54 def spider_idle(self, spider):
55 # 程式啟動的時候會呼叫這個方法一次，之後每隔5秒再請求一次
56 # 當持續半個小時都沒有spider.redis_key，就關閉爬蟲
57 # 判斷是否存在 redis_key
58 if not spider.server.exists(spider.redis_key):
59 self.idle_count += 1
60 else:
61 self.idle_count = 0
62 
63 if self.idle_count > self.idle_number:
64 # 執行關閉爬蟲操作
65 self.crawler.engine.close_spider(spider, 'Waiting time exceeded')

2.開啟settings.py檔案中EXTENSIONS的註釋，將Telent的註釋掉，換上：
'專案名.extensions.RedisSpiderSmartIdleClosedExensions': 500,

3.配置settings.py檔案：
# 開啟擴充套件
MYEXT_ENABLED = True
# 每5秒就檢測一次，檢測10次（50秒），如果url還為空，那麼就結束爬蟲程式
IDLE_NUMBER = 10

slave配置：
前面都一樣
需要刪除redis_urls檔案
settings.py的配置：

 1 #配置分散式的主要配置選項
 2 #1.配置排程器；
 3 SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
 4 #2.配置去重器
 5 DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
 6 #3.配置排程佇列
 7 SCHEDULER_QUEUE_CLASS='scrapy_redis.queue.PriorityQueue'
 8 #4.配置redis主機名
 9 REDIS_HOST = 'master的IP'
10 #5.配置redis埠號
11 REDIS_PORT = 6379
12 ITEM_PIPELINES = {
13 'meishi.pipelines.MeishiPipeline': 300,
14 # 'scrapy_redis.pipelines.RedisPipeline': 301
15 }

如果存到master的MongoDB資料庫，需要將host改成master的ip，資料庫改成master的，集合也改成master的

master端和slave端的程式碼保持一致（改完master端程式碼後複製一份當成salve端的程式碼），slave端需要更改以下：
1. redis_urls.py刪掉
2. MongoDB資料庫的主機號改為master端的

注意：scrapy-redis存在空跑問題

開始連線：
嘗試連線mongo：mongo --host masterIP --port 27017
嘗試連線master的redis資料庫：redis-cli -h masterIP
master的redis資料庫配置檔案需要做如下更改：
1.將bind 127.0.0.1 註釋掉
2.將protected-mode yes 改為 protected-mode no

scrapy-redis的搭建分散式爬蟲去重

master：一、spider檔案1.需要更改繼承的類from scrapy_redis.spiders import RedisSpider 2.註釋掉start_urls

【爬蟲】加代理，cookie，header，selenium去重，scrapy-redis實現分散式爬蟲

目錄 1. 加代理，cookie，header，加入selenium 1.1 加代理 1.2 加cookie,修改請求頭，隨機生成UserAgent1.3 整合selenium

使用 scrapy-redis實現分散式爬蟲

Scrapy 和 scrapy-redis的區別 Scrapy 是一個通用的爬蟲框架，但是不支援分散式，Scrapy-redis是為了更方便地實現Scrapy分散式爬取，而提供了一些以redis為基礎的元件(僅有元件)。

scrapy-redis實現分散式爬蟲

什麼是分散式爬蟲分散式爬蟲就是多臺計算機上都安裝爬蟲程式，重點是聯合採集。單機爬蟲就是隻在一臺計算機上的爬蟲。

python redis連線有序集合去重的程式碼

python redis連線有序集合去重的程式碼如下所述： # -*- coding: utf-8 -*- import redis from constant import redis_ip,redis_db,redis_pw,redis_zset_name

scrapy-redis分散式爬蟲的搭建過程(理論篇)

1. 背景 Scrapy 是一個通用的爬蟲框架，但是不支援分散式，Scrapy-redis是為了更方便地實現Scrapy分散式爬取，而提供了一些以redis為基礎的元件(僅有元件)。

爬蟲終 scrapy框架2 全站爬取cnblogs, scarpy請求傳參, 提高爬取效率, 爬蟲中介軟體下載中介軟體, 整合selenium, fake-useragent, 去重原始碼分析, 布隆過濾器, 分散式爬蟲, java等語言概念補充, bilibili爬視訊參考

1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com

17.基於scrapy-redis兩種形式的分散式爬蟲

17.基於scrapy-redis兩種形式的分散式爬蟲 redis分散式部署 1.scrapy框架是否可以自己實現分散式？

scrapy-redis分散式爬蟲,使用post方法

https://github.com/rmax/scrapy-redis 把原始碼中的 src 複製到自己專案中 from scrapy_redis.spiders import RedisSpider

Docker部署Scrapy-redis分散式爬蟲框架（整合Selenium+Headless Chrome網頁渲染）

前言我的京東價格監控網站需要不間斷爬取京東商品頁面，爬蟲模組我採用了Scrapy+selenium+Headless Chrome的方式進行商品資訊的採集。

scrapy-redis分散式爬蟲

scrapy-redis分散式爬蟲開發步驟一、安裝模組 pip install scrapy-redis -i https://pypi.douban.com/simple

[Python爬蟲]scrapy-redis快速上手（爬蟲分散式改造）

作者的話對Python爬蟲如何實現大批量爬取感興趣的讀者可以看下scrapy爬蟲框架，並且使用本文的scrapy-redis將你的爬蟲升級為分散式爬蟲。

scrapy之分散式爬蟲scrapy-redis

scrapy_redis的作用 Scrapy_redis在scrapy的基礎上實現了更多，更強大的功能，具體體現在：

將一個普通scrapy專案變成一個scrapy-redis分散式爬蟲專案

1. 將爬蟲的類從scrapy.Spider變成scrapy_redis.spiders.RedisSpider;或者是從scrapy.CrawlSpider變成scrapy_redis.spider.RedisCrawlSpider。

Scrapy-Redis分散式爬蟲元件

Scrapy-Redis分散式爬蟲元件 Scrapy是一個框架，他本身是不支援分散式的。如果我們想要做分散式的爬蟲，就需要藉助一個元件叫做Scrapy-Redis，這個元件正是利用了Redis可以分散式的功能，整合到Scrapy框架中，使得爬

Redis精確去重計數方法（咆哮點陣圖）

前言如果要統計一篇文章的閱讀量，可以直接使用 Redis 的 incr 指令來完成。如果要求閱讀量必須按使用者去重，那就可以使用 set 來記錄閱讀了這篇文章的所有使用者 id，獲取 set 集合的長度就是去重閱讀量。但是如果

分散式爬蟲處理Redis裡的資料操作步驟

存入MongoDB 1.啟動MongoDB資料庫：sudo mongod 2.執行下面程式：py2 process_youyuan_mongodb.py

Python 用Redis簡單實現分散式爬蟲的方法

Redis通常被認為是一種持久化的儲存器關鍵字-值型儲存，可以用於幾臺機子之間的資料共享平臺。

python 爬蟲實現增量去重和定時爬取例項

前言：在爬蟲過程中，我們可能需要重複的爬取同一個網站，為了避免重複的資料存入我們的資料庫中通過實現增量去重去解決這一問題本文還針對了那些需要實時更新的網站增加了一個定時爬取的功能；

scrapy分散式爬蟲

redis分散式部署 1.scrapy框架是否可以自己實現分散式？　　　　- 不可以。原因有二。

scrapy-redis的搭建 分散式爬蟲 去重

相關推薦

scrapy-redis的搭建分散式爬蟲去重