基於scrapy-redis兩種形式的分散式爬蟲

阿新 • • 發佈：2018-12-18

redis分散式部署

1.scrapy框架是否可以自己實現分散式？

　　　　- 不可以。原因有二。

　　　　　　其一：因為多臺機器上部署的scrapy會各自擁有各自的排程器，這樣就使得多臺機器無法分配start_urls列表中的url。（多臺機器無法共享同一個排程器）

　　　　　　其二：多臺機器爬取到的資料無法通過同一個管道對資料進行統一的資料持久出儲存。（多臺機器無法共享同一個管道）

2.基於scrapy-redis元件的分散式爬蟲

- scrapy-redis元件中為我們封裝好了可以被多臺機器共享的排程器和管道，我們可以直接使用並實現分散式資料爬取。

- 實現方式：

1.基於該元件的RedisSpider類

2.基於該元件的RedisCrawlSpider類

3.分散式實現流程：上述兩種不同方式的分散式實現流程是統一的

- 3.1 下載scrapy-redis元件：pip install scrapy-redis

- 3.2 redis配置檔案的配置：

- 註釋該行：bind 127.0.0.1，表示可以讓其他ip訪問redis

- 將yes該為no：protected-mode no，表示可以讓其他ip操作redis

3.3 修改爬蟲檔案中的相關程式碼：

- 將爬蟲類的父類修改成基於RedisSpider或者RedisCrawlSpider。注意：如果原始爬蟲檔案是基於Spider的，則應該將父類修改成RedisSpider，如果原始爬蟲檔案是基於CrawlSpider的，則應該將其父類修改成RedisCrawlSpider。

- 註釋或者刪除start_urls列表，切加入redis_key屬性，屬性值為scrpy-redis元件中排程器佇列的名稱

3.4 在配置檔案中進行相關配置，開啟使用scrapy-redis元件中封裝好的管道

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400
}

3.5 在配置檔案中進行相關配置，開啟使用scrapy-redis元件中封裝好的排程器

# 使用scrapy-redis元件的去重佇列
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis元件自己的排程器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 是否允許暫停
SCHEDULER_PERSIST = True

3.6 在配置檔案中進行爬蟲程式連結redis的配置：

REDIS_HOST = 'redis服務的ip地址'
REDIS_PORT = 6379
REDIS_ENCODING = ‘utf-8’
REDIS_PARAMS = {‘password’:’123456’}

3.7 開啟redis伺服器：redis-server 配置檔案

3.8 開啟redis客戶端：redis-cli

3.9 執行爬蟲檔案：scrapy runspider SpiderFile

3.10 向排程器佇列中扔入一個起始url（在redis客戶端中操作）：lpush redis_key屬性值起始url

1.基於該元件的RedisSpider類爬蟲程式碼如下

資料：國產器械，資料條數10萬條

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from scrapy_redis.spiders import RedisSpider
 4 from  redisSpiderPro.items import RedisspiderproItem
 5 class RedisspidertestSpider(RedisSpider):
 6     name = 'redisSpiderTest'
 7     # allowed_domains = ['www.xxx.com']
 8     # start_urls = ['http://www.xxx.com/']
 9 
10     #排程器佇列的名稱
11     redis_key='data'
12     url='http://db.pharmcube.com/database/cfda/detail/cfda_cn_instrument/'
13     pageNum=1
14     def parse(self, response):
15                     num=response.xpath('/html/body/div/table/tbody/tr[1]/td[2]/text()').extract_first()
16         name=response.xpath('/html/body/div/table/tbody/tr[2]/td[2]/text()').extract_first()
17 
18         item=RedisspiderproItem()
19         item['num']=num
20         item['name']=name
21         yield  item
22 
23         if self.pageNum<=10000:
24             self.pageNum+=1
25             new_url=self.url+str(self.pageNum)
26             yield scrapy.Request(url=new_url,callback=self.parse)

爬蟲程式碼

setting配置

 1 USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
 2 
 3 ROBOTSTXT_OBEY = False
 4 
 5 #管道
 6 ITEM_PIPELINES = {
 7     'scrapy_redis.pipelines.RedisPipeline': 400
 8 }
 9 
10 # 使用scrapy-redis元件的去重佇列
11 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
12 # 使用scrapy-redis元件自己的排程器
13 SCHEDULER = "scrapy_redis.scheduler.Scheduler"
14 # 是否允許暫停
15 SCHEDULER_PERSIST = True
16 
17 
18 #redis連線資料庫的引數
19 REDIS_HOST = '192.168.19.38'
20 REDIS_PORT = 6379
21 #編碼格式
22 # REDIS_ENCODING = ‘utf-8’
23 #使用者名稱密碼
24 # REDIS_PARAMS = {‘password’:’123456’}

setting

2.基於該元件的RedisCrawlSpider類爬蟲程式碼如下

資料抽屜網：爬取段子

爬蟲程式碼：

 1 import scrapy
 2 from scrapy.linkextractors import LinkExtractor
 3 from scrapy.spiders import CrawlSpider, Rule
 4 from  redisCrawlSpiderPro.items import RediscrawlspiderproItem
 5 from scrapy_redis.spiders import RedisCrawlSpider
 6 
 7 class CrawlspiderSpider(RedisCrawlSpider):
 8     name = 'CrawlSpider'
 9     # allowed_domains = ['www.xxx.com']
10     # start_urls = ['http://www.xxx.com/']
11 
12     redis_key='data'
13     link=LinkExtractor(allow=r'/r/scoff/hot/\d+')
14     rules = (
15         Rule(link, callback='parse_item', follow=True),
16     )
17 
18     def parse_item(self, response):
19        div_list=response.xpath('//div[@id="content-list"]/div')
20        for div in div_list:
21            item=RediscrawlspiderproItem()
22            item['title'] = div.xpath('./div[3]/div/a/text()').extract_first()
23            item['author'] = div.xpath('./div[3]/div[2]/a[4]/b/text()').extract_first()
24            yield item

爬蟲程式碼

爬蟲-基於scrapy-redis兩種形式的分散式爬蟲

redis分散式部署 1.scrapy框架是否可以自己實現分散式？　　　　- 不可以。原因有二。　　　　　　其一：因為多臺機器上部署的scrapy會各自擁有各自的排程器，這樣就使得多臺機器無法分配start_urls列表中的url。（多臺機器無法共享同

基於scrapy-redis兩種形式的分散式爬蟲

17.基於scrapy-redis兩種形式的分散式爬蟲

redis分散式部署 1.scrapy框架是否可以自己實現分散式？　　　　- 不可以。原因有二。　　　　　　其一：因為多臺機器上部署的scrapy會各自擁有各自的排程器，這樣就使得多臺機器無法分配start_urls列表中的url

基於scrapy-redis兩種形式的分布式爬蟲

eset data- 流程鏈接 -s efi snippet 調度器 imp redis分布式部署 1.scrapy框架是否可以自己實現分布式？　　　　- 不可以。原因有二。　　　　　　其一：因為多臺機器上部署的scrapy會各自擁有各自的調度器，這樣就使得多

19.基於scrapy-redis兩種形式的分布式爬蟲

實現機器分配 spider iss 持久分布式 lsp 直接 redis分布式部署 1.scrapy框架是否可以自己實現分布式？　　　　- 不可以。原因有二。　　　　　　其一：因為多臺機器上部署的scrapy會各自擁有各自的調度器，這樣就使得多臺機器無法分配s

【個人專案】基於scrapy-redis的股票分散式爬蟲實現及其股票預測演算法研究

前言都說做計算機的，專案實踐是最能帶給人成長的。之前學習了很多的大資料和AI的知識，但是從來沒有自己做過一個既包含大資料又包含AI的專案。後來就決定做了個大資料+AI的分散式爬蟲系統。下面筆者會講述整個專案的架構，以及所用到技術點的些許介紹。專案介紹這個專

基於Scrapy-Redis的分散式以及cookies池

基於Scrapy-Redis的分散式以及cookies池轉載自：靜覓 » 小白進階之Scrapy第三篇（基於Scrapy-Redis的分散式以及cookies池） ==================================================

爬蟲2.1-scrapy框架-兩種爬蟲對比

目錄 scrapy框架-兩種爬蟲對比和大概流程 1. 傳統spider爬蟲 2. crawl型爬蟲 3. 迴圈頁面請求 4. scrapy框架爬蟲的大致流程 scrapy框架-兩種爬蟲對比和大概流程注：spider.py指使用命令列建立的爬蟲主檔

python爬蟲之Scrapy框架:兩種隨機選擇User-Agent的方法

修改請求時的User-Agent一般有兩種思路:一是修改setting中的User-Agent變數(適用於極少量的agent更換,一般不採用);另一種就是通過Downloader Middleware的process_request()方法來修改,即在middlewares.

SQL 關於apply的兩種形式cross apply 和 outer apply

插入數據 sele 我們如果 href 新的 desc 得出 tro 轉載：http://www.cnblogs.com/Leo_wl/archive/2013/04/02/2997012.html apply有兩種形式： cross apply 和 out

5.1.1 字符串格式化的兩種形式

建模表示 () 關鍵字 format dong 相對模板類 align 　　如果需要將其他類型的數據轉換為字符串，或者嵌入其他字符串或模板中再進行輸出，就需要用到字符串格式化。Python中字符串格式化的的格式如下所示，格式運算符%之前的部分為格式字符串，之後的部分為需

（三）Redis兩種持久化方案

根據 edit 接受 lang app append size aps pen Redis的持久化策略：2種 RDB方式的持久化是通過快照（snapshotting）完成的，當符合一定條件時Redis會自動將內存中的數據進行快照並持久化到硬盤。RDB是Redis默認采用

列表存儲的兩種形式

family 技術分享內存 height 表結構下列表順序表成了空間 1.順序表結構 32位的操作系統每個存儲空間占四個字節。然後列表中同類型的數據的元素的地址是相連的比如下圖 [200,390,78,1212] 假設第一個元素的地址的0x27(x表示的是十六進

python 類C數組的兩種形式：list -->內容可變, tuple --->內容不可變

size print app http append 列表 itl c數組 multi python 中的列表相當與 C 中的數組，列表：list 初始化使用[ ]，元組：tuple 初始化使用（）；一、列表list 1 #!/usr/bin/python 2 3

Logistic回歸的兩種形式y=0/1,y=+1/-1

兩種 ons class 似然 com clas blank function 函數第一種形式：y=0/1 第二種形式：y=+1/-1 第一種形式的損失函數可由極大似然估計推出: 第二種形式的損失函數：，參考：https://en.wikipedia.org

ReactNative 自定義Android原生模組的兩種形式

ReactNative 自定義Android原生模組的兩種形式 1.原生View模組繼承SimpleViewManager<返回View型別> 必須重寫getName()和createViewInstance(ThemedReactContext context

Scrapy專案部署到Gerapy分散式爬蟲框架流程

1 準備工作（1）安裝Gerapy 通過pip install gerapy即可（2）安裝Scrapyd 通過pip install scrapyd即可（3）寫好的Scrapy專案，如： 2 開始部署（1）在電腦任意位置新建一個資料夾，如：（2）開

ubuntu 安裝redis兩種方式教程

方式一: 下載地址：http://redis.io/download，下載最新文件版本。本教程使用的最新文件版本為 2.8.17，下載並安裝： $ wget http://download.redis.io/releases/redis-2.8.17.tar.gz $ tar xzf

redis兩種叢集的簡單搭建

redis主從複製叢集實現方式：選擇一臺redis伺服器作為master節點（負責寫操作），另外一臺或多臺伺服器作為slave節點（負責讀操作），slave節點上的資料完全由master節點同步過來。作用：降低單節點redis伺服器的讀寫負載，將讀寫分離到不同的伺服器

opencv(3)-floodFill函式填充，兩種形式

第一種：聯通方式為，CV_FLOODFILL_FIXED_RANGE，彩色填充 # -*- coding=GBK -*- import cv2 import numpy as np def fill_image(image): copy_image = image

基於scrapy-redis兩種形式的分散式爬蟲

資料：國產器械，資料條數10萬條

相關推薦