搭建redis-scrapy分散式爬蟲環境

阿新 • • 發佈：2018-12-09

ubuntu上作主機

A . 主機---管理指紋佇列，資料佇列，request隊：redis, 建議不要爬資料。
     1臺主機，用ubutnu系統
     上課演示的是這臺電腦也爬取，不光要安裝redis, 還要安裝scrapy(先)和scrapy-redis（後）


    基本步奏： 
    1. 啟動服務：redis-server
    2.  使用 redis 客戶端檢視是否啟動：redis-cli
         必須安裝的是redis： apt-get install redis-server

    3. 如果要把當前電腦當成Master端把bind 127.0 
.0.1註釋掉，進入配置檔案：
                    sudo vi /etc/redis/redis.conf
    4. windwo上面， 裝並使用redis桌面管理軟體，進行管理

步奏實現： ubuntu上裝redis

1. cd,  在根目錄下，裝redis-server
sudo apt-get install redis-server

2. 啟動 Redis 服務
redis-server

3.（ctrl +arl +t, 另一視窗） 啟動redis 客戶端
redis-cli

4.ping:pong
127.0.0.1 是本機 IP ，6379 是 redis 服務埠。現在我們輸入 PING 命令------ 
pong。

以上說明我們已經成功安裝了redis。

5. 安裝完成後，拷貝一份Redis安裝目錄下的redis.conf到任意目錄，建議儲存到：/etc/redis/redis.conf 

6. （ps:  ctrl +arl +t, 另一視窗下可） 檢視版本及redis當前狀態
檢視版本服務端：
redis-server –version 和 redis-server -v 
檢視客戶端：
redis-cli –version 和 redis-cli -v 
檢視redis當前狀態
ps ajx|grep redis

window上裝： RedisDesktopManager ，並連ubuntu上的redis, 管理redis資料

1， 點選RedisDesktopManager.exe 直接一步步安裝就行，
2. 裝好後， 連結上ubtuntu上的redis伺服器

這裡寫圖片描述

2. 從機（奴隸），專門做爬取資料，只要執行程式碼：安裝scrapy和scrapy-redis
    從機2臺
    window一臺，和另外一臺ubuntu系統

    安裝scrapy命令：pip3 install scrapy
    安裝scrapy-redis命令：pip install scrapy-redis


3. 測試從機是否可用連結上主機的redis

從機爬取的資料要傳輸到主機的redis,判斷request是否請求

連結到主機的命令：redis-cli -h 主機的ip

例如：redis-cli -h 192.168.11.73


四、scrapy-redis原始碼自帶專案說明

執行爬蟲：

from scrapy import cmdline
cmdline.execute("scrapy crawl mycrawler_redis".split())


讓爬蟲開始爬取網站命令：

進入到redis客戶端：redis-cli
執行任務的命令：lpush mycrawler:start_urls https://www.sina.com.cn/

lpush myspider:start_urls  https://hr.tencent.com/position.php?&start=0#a

五、scrapy_redis執行流程和scrapy對比

搭建redis-scrapy分散式爬蟲環境

ubuntu上作主機 A . 主機---管理指紋佇列，資料佇列，request隊：redis, 建議不要爬資料。 1臺主機，用ubutnu系統上課演示的是這臺電腦也爬取，不光要安裝redis, 還要安裝scrapy(先)和scrapy-r

從零搭建Redis-Scrapy分散式爬蟲

Scrapy-Redis分散式策略：假設有四臺電腦：Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2，任意一臺電腦都可以作為 Master端或 Slaver端，比如： Master端(核心伺服器) ：使用 Windows 1

在伺服器上搭建scrapy分散式爬蟲環境的過程

這段時間在用 scrapy 爬取大眾點評美食店鋪的資訊，由於準備爬取該網站上全國各個城市的資訊，單機跑效率肯定是跟不上的，所以只能藉助於分散式。scrapy 學習自崔慶才老師的視訊，受益頗多，程式碼簡練易懂，風格清新。這裡梳理一遍從剛申請的伺服器環境配置，pyt

利用scrapy-redis實現分散式爬蟲

環境要求 Python 2.7, 3.4 or 3.5 Redis >= 2.8 Scrapy >= 1.1 redis-py >= 2.10 1. 先安裝scrapy-redis sudo pip3 in

python下使用scrapy-redis模組分散式爬蟲的爬蟲專案部署詳細教程————————gerapy

1.使用gerapy進行分散式爬蟲管理準備工作：首先將你使用scrapy-redis寫的分散式爬蟲全部完善模組準備：安裝： pip install pymongo【依賴模組】 pip install gerapy 2.在本地建立部署專案的資料夾

基於Python+scrapy+redis的分散式爬蟲實現框架

爬蟲技術，無論是在學術領域，還是在工程領域，都扮演者非常重要的角色。相比於其他技術，爬蟲技術雖然在實現上比較簡單，沒有那麼多深奧的技術難點，但想要構建一套穩定、高效、自動化的爬蟲框架，也並不是一件容易的事情。這裡筆者打算就個人經驗，介紹一種分散式爬蟲框架的實

使用 scrapy-redis實現分散式爬蟲

Scrapy 和 scrapy-redis的區別 Scrapy 是一個通用的爬蟲框架，但是不支援分散式，Scrapy-redis是為了更方便地實現Scrapy分散式爬取，而提供了一些以redis為基礎的元件(僅有元件)。 pip install scr

搭建hadoop偽分散式叢集環境過程中遇見的問題總結

1、網路配置問題：在centos7中配置網路環境後，本機（win10系統）與虛擬機器centos7網路不通（本機可以ping通虛擬機器，但是虛擬機器ping不通本機）；解決方式：方式1：檢視本機win10系統的防火牆是否關閉，若沒有，直接關閉win10系統的防火牆即可；方式2

爬蟲(三) redis&分散式爬蟲

redis redis, 稱為記憶體資料庫, 以key-value的形式存放資料, 是一個非關係型資料庫 redis 提供類豐富的資料型別, 其有 string list map set sortSet 五種資料型別 redis 的資料型別指的是value的

搭建Spark真實分散式執行環境

搭建Spark真實分散式執行環境文章目錄搭建Spark真實分散式執行環境配置不依賴於HDFS的spark standslone模式準備工作配置基本環境配置免密登入

Windows下安裝配置爬蟲工具Scrapy及爬蟲環境

爬蟲工具Scrapy在Mac和Linux環境下都相對好裝，但是在Windows上總會碰到各種莫名其妙的問題。本文記錄下Scrapy在Window上的安裝過程。本文是基於Python2.7及Windows 10安裝Scrapy及各種爬蟲相關庫。下載安裝Sc

基於Scrapy_redis部署scrapy分散式爬蟲

1 . 使用命令列工具下載工具包 scrapy_redis 注意：要在自己使用的環境中下載安裝包 2. 使用pycharm開啟專案,找到settings檔案,配置scrapy專案使用的排程器及過濾器 3. 修改spider爬蟲檔案 4. 如果連線的有遠端

hadoop叢集環境搭建之偽分散式叢集環境搭建

搭建叢集的模式有三種 1.偽分散式：在一臺伺服器上，啟動多個執行緒分別代表多個角色(因為角色在叢集中使用程序表現的) 2.完全分散式：在多臺伺服器上，每臺伺服器啟動不同角色的程序，多臺伺服器構成叢集 node01:NameNode node02:

搭建簡單JAVA分散式爬蟲系統

先貼一張架構圖整體架構分三個部分：排程器：分配任務爬蟲：爬取資料並儲存監控系統：檢視爬蟲狀態（主要作用是某個節點down掉了可以今早發現，雖然不影響整體穩定性，但是影響爬蟲效率）爬蟲部分爬

scrapy分散式爬蟲之ES搜尋引擎網站

1.課程介紹 2.windows下搭建開發環境2.1pycharm的安裝和簡單實用2.2mysql和navicat的安裝和使用2.3window的安裝python32.4虛擬環境的安裝和配置 3.Python爬蟲基礎知識3.1python3基礎urllib的使用3.2python3基礎cookie的使用3

Jenkins實踐基礎：JNLP方式搭建Master-Slave分散式構建環境

Jenkins支援多種方式實現分散式構建，主要方式之一為傳統的一主多從（Master/Slave）。Master主要用於作業（job）的分配以及使用者操作的互動等，而slave則用於處理實際構建作業等，在集中化的構建需要較高效能支援以及橫向擴充套件性的時候，Master-Slave方式

基於scrapy_redis部署scrapy分散式爬蟲（詳細步驟）

使用命令列工具下載工具包 scrapy_redis，在命令列敲下面程式碼並回車，出現Success類字元表示下載成功使用pycharm 開啟專案，找到settings檔案，配置scrapy專案使用的排程器及過濾器！這裡資料儲存到redis中可以

第二章 python分散式爬蟲打造搜尋引擎環境搭建第一節建立第一個scrapy專案

scrapy可以執行在python2.7、python3.3或者是更高的版本上；首先我們借用之前的知識，建立一個python環境。然後在此python環境中建立我們的scrapy專案。這裡你如果不理解的可以給你們大個比方，python版本就好比是

第一章 python分散式爬蟲打造搜尋引擎環境搭建第三節Navicat遠端連線虛擬機器裡mysql教程

上一節，我們已經成功安裝了mysql,這一節比較簡單，內容也比較少，在配置中遇到的一些問題我也將在之後的文章中給出解決和解釋，一些很低階的問題，希望大家以後可以避免！第一步：開啟Navicat，做連線配置，如下圖所示：這裡有個小

第一章 python分散式爬蟲打造搜尋引擎環境搭建第二節 CentOS7環境下Mysql的安裝

CentOS7環境下Mysql的安裝方式有很多，可以用壓縮包安裝，也可以在聯網的情況下直接命令下載安裝！此篇文章將介紹一下如何通過命令安裝mysql資料庫！下面的程式碼都是親自實驗可用的，可以方便快捷的安裝mysql。第一， MySQL的

搭建redis-scrapy分散式爬蟲環境

ubuntu上作主機

步奏實現： ubuntu上裝redis

window上裝： RedisDesktopManager ， 並連ubuntu上的redis, 管理redis資料

相關推薦

window上裝： RedisDesktopManager ，並連ubuntu上的redis, 管理redis資料