scrapy-redis分散式爬蟲

阿新 • • 發佈：2020-11-19

scrapy-redis分散式爬蟲

開發步驟

一、安裝模組

pip install scrapy-redis -i https://pypi.douban.com/simple

tips：重點講解scrapy-redis與scrapy不同的地方。以下步驟均是在原scrapy專案中進行修改

二、修改settings檔案

1、在settings.py檔案中新增如下程式碼，

# scrapy_redis
# 過濾器 類模板， 過濾重複的請求物件
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
# 排程器 類模板
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
# 排程器持久化，實現斷點續爬
SCHEDULER_PERSIST = True
# 使用redis
REDIS_URL = 'redis://127.0.0.1:6379'

2、修改ITEM_PIPELINES，新增redis管道。可以將資料儲存到redis資料庫中。

ITEM_PIPELINES = {
   # 將資料儲存到redis資料庫
   'scrapy_redis.pipelines.RedisPipeline': 400,
}

三、修改爬蟲檔案

1、匯入模組

from scrapy_redis.spiders import RedisSpider	# 匯入RedisSpider類

2、修改類，讓爬蟲繼承RedisSpider類

class xxxSpider(RedisSpider): # 爬蟲繼承RedisSpider類

3、新增類屬性redis_key，並註釋原來的start_urls

redis_key = 'key'	# key 為redis資料庫中的鍵，列表型別、儲存開始url

四、進入redis資料庫

1、執行爬蟲檔案

scrapy crawl 爬蟲名

可以看見程式最後停在了，表示正在監聽redis資料庫，等待redis資料庫分配開始url

Telnet console listening on 127.0.0.1:6023

2、進入redis資料庫

redis安裝就不贅述了。

# 進入redis
redis-cli
# 設定開始url
lpush key http://www.xxx.com

設定完開始url後，爬蟲立刻開始爬取網頁。直到所有網頁爬取完畢，但是爬蟲程式並沒有結束，而是繼續等待redis資料庫分配網址。所以此時需要手動結束爬蟲程式：Ctrl+C 結束程序。

5、儲存資料到檔案

import redis
import json

# 設定編碼。按需修改其他引數：host\port\db\...
r = redis.StrictRedis(decode_responses=True)
# spider為爬蟲名，自定義。資料型別為列表
itemslist = r.lrange('spider:items', 0, -1)

# 儲存到檔案
with open('store_redis_data.json', 'w') as f:
    json.dump(itemslist, f，ensure_ascii=False, indent=4)

"""
StrictRedis()的引數
decode_responses=True
設定自動將位元組資料解碼，將直接得到字串資料，json不能儲存位元組資料。
encoding = 'utf-8' 
編碼格式預設為utf-8，看情況修改
host='localhost'
設定ip地址
port=6379
埠號
db=0
選擇資料庫
password=None
填寫密碼

dump()的引數
ensure_ascii=False
預設使用ascii編碼，需要關閉，否則不能顯示中文。
indent=4
設定換行縮排，子節點縮排4格。預設不換行，所有內容顯示在一行中。
"""

scrapy-redis分散式原理

1、原理

用redis資料庫代替scrapy中的排程器和管道。由redis統一分配任務和儲存資料。

2、redis的工作：

1、儲存請求物件。接收各伺服器爬蟲傳送的url請求物件。並過濾掉重複的。

2、儲存item物件。接收各伺服器爬蟲傳送的資料。

3、分配任務。將請求物件均分給各伺服器。

4、實現斷點續爬。過濾掉已完成的任務，儲存未完成的任務。在任務中斷後，再次啟動任務可以從斷點開始任務。

3、實現要求：

多臺伺服器需連線到同一個redis資料庫。

scrapy-redis分散式爬蟲,使用post方法

https://github.com/rmax/scrapy-redis 把原始碼中的 src 複製到自己專案中 from scrapy_redis.spiders import RedisSpider

Docker部署Scrapy-redis分散式爬蟲框架（整合Selenium+Headless Chrome網頁渲染）

前言我的京東價格監控網站需要不間斷爬取京東商品頁面，爬蟲模組我採用了Scrapy+selenium+Headless Chrome的方式進行商品資訊的採集。

scrapy-redis分散式爬蟲的搭建過程(理論篇)

1. 背景 Scrapy 是一個通用的爬蟲框架，但是不支援分散式，Scrapy-redis是為了更方便地實現Scrapy分散式爬取，而提供了一些以redis為基礎的元件(僅有元件)。

scrapy-redis分散式爬蟲

scrapy-redis分散式爬蟲開發步驟一、安裝模組 pip install scrapy-redis -i https://pypi.douban.com/simple

將一個普通scrapy專案變成一個scrapy-redis分散式爬蟲專案

1. 將爬蟲的類從scrapy.Spider變成scrapy_redis.spiders.RedisSpider;或者是從scrapy.CrawlSpider變成scrapy_redis.spider.RedisCrawlSpider。

Scrapy-Redis分散式爬蟲元件

Scrapy-Redis分散式爬蟲元件 Scrapy是一個框架，他本身是不支援分散式的。如果我們想要做分散式的爬蟲，就需要藉助一個元件叫做Scrapy-Redis，這個元件正是利用了Redis可以分散式的功能，整合到Scrapy框架中，使得爬

scrapy之分散式爬蟲scrapy-redis

scrapy_redis的作用 Scrapy_redis在scrapy的基礎上實現了更多，更強大的功能，具體體現在：

17.基於scrapy-redis兩種形式的分散式爬蟲

17.基於scrapy-redis兩種形式的分散式爬蟲 redis分散式部署 1.scrapy框架是否可以自己實現分散式？

使用 scrapy-redis實現分散式爬蟲

Scrapy 和 scrapy-redis的區別 Scrapy 是一個通用的爬蟲框架，但是不支援分散式，Scrapy-redis是為了更方便地實現Scrapy分散式爬取，而提供了一些以redis為基礎的元件(僅有元件)。

[Python爬蟲]scrapy-redis快速上手（爬蟲分散式改造）

作者的話對Python爬蟲如何實現大批量爬取感興趣的讀者可以看下scrapy爬蟲框架，並且使用本文的scrapy-redis將你的爬蟲升級為分散式爬蟲。

scrapy-redis實現分散式爬蟲

什麼是分散式爬蟲分散式爬蟲就是多臺計算機上都安裝爬蟲程式，重點是聯合採集。單機爬蟲就是隻在一臺計算機上的爬蟲。

scrapy-redis的搭建分散式爬蟲去重

master：一、spider檔案1.需要更改繼承的類from scrapy_redis.spiders import RedisSpider 2.註釋掉start_urls

【爬蟲】加代理，cookie，header，selenium去重，scrapy-redis實現分散式爬蟲

目錄 1. 加代理，cookie，header，加入selenium 1.1 加代理 1.2 加cookie,修改請求頭，隨機生成UserAgent1.3 整合selenium

分散式爬蟲處理Redis裡的資料操作步驟

存入MongoDB 1.啟動MongoDB資料庫：sudo mongod 2.執行下面程式：py2 process_youyuan_mongodb.py

Python 用Redis簡單實現分散式爬蟲的方法

Redis通常被認為是一種持久化的儲存器關鍵字-值型儲存，可以用於幾臺機子之間的資料共享平臺。

scrapy分散式爬蟲

redis分散式部署 1.scrapy框架是否可以自己實現分散式？　　　　- 不可以。原因有二。

python爬蟲學習筆記(二十九)-Scrapy 框架-分散式

1. 介紹scrapy-redis框架 scrapy-redis 一個三方的基於redis的分散式爬蟲框架，配合scrapy使用，讓爬蟲具有了分散式爬取的功能。

Scrapy分散式爬蟲，分散式佇列和布隆過濾器，一分鐘搞定？

使用Scrapy開發一個分散式爬蟲？你知道最快的方法是什麼嗎？一分鐘真的能開發好或者修改出一個分散式爬蟲嗎？

Scrapy基於scrapy_redis實現分散式爬蟲部署的示例

準備工作 1.安裝scrapy_redis包,開啟cmd工具,執行命令pip install scrapy_redis 2.準備好一個沒有BUG,沒有報錯的爬蟲專案

爬蟲終 scrapy框架2 全站爬取cnblogs, scarpy請求傳參, 提高爬取效率, 爬蟲中介軟體下載中介軟體, 整合selenium, fake-useragent, 去重原始碼分析, 布隆過濾器, 分散式爬蟲, java等語言概念補充, bilibili爬視訊參考

1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com