如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監控分布式爬蟲項目

阿新 • • 發佈：2018-11-26

配置修改 servers size 發送批量部署 image 行操作 term

來自 Scrapy 官方賬號的推薦

技術分享圖片

需求分析

初級用戶：

只有一臺開發主機
能夠通過 Scrapyd-client 打包和部署 Scrapy 爬蟲項目，以及通過 Scrapyd JSON API 來控制爬蟲，感覺命令行操作太麻煩，希望能夠通過瀏覽器直接部署和運行項目

專業用戶：

有 N 臺雲主機，通過 Scrapy-Redis 構建分布式爬蟲
希望集成身份認證
希望在頁面上直觀地查看所有雲主機的運行狀態
希望能夠自由選擇部分雲主機，批量部署和運行爬蟲項目，實現集群管理
希望自動執行日誌分析，以及爬蟲進度可視化
希望在出現特定類型的異常日誌時能夠及時通知用戶，包括自動停止當前爬蟲任務

動圖展示

集群多節點部署和運行爬蟲項目：
技術分享圖片

安裝和配置

請先確保所有主機都已經安裝和啟動 Scrapyd，如果需要遠程訪問 Scrapyd，則需將 Scrapyd 配置文件中的 bind_address 修改為 bind_address = 0.0.0.0，然後重啟 Scrapyd。
開發主機或任一臺主機安裝 ScrapydWeb：pip install scrapydweb
運行命令 scrapydweb -h，將在當前工作目錄生成配置文件 scrapydweb_settings.py，可用於下文的自定義配置。

啟用 HTTP 基本認證：

ENABLE_AUTH = True
USERNAME = ‘username‘
PASSWORD = ‘password‘

添加 Scrapyd server，支持字符串和元組兩種配置格式，支持添加認證信息和分組/標簽：

SCRAPYD_SERVERS = [
‘127.0.0.1‘,
# ‘username:password@localhost:6801#group‘,
(‘username‘, ‘password‘, ‘localhost‘, ‘6801‘, ‘group‘),
]

通過運行命令 scrapydweb 啟動 ScrapydWeb

訪問 Web UI

通過瀏覽器訪問 http://127.0.0.1:5000，輸入認證信息登錄。

Overview 頁面自動輸出所有 Scrapyd server 的運行狀態
通過分組和過濾可以自由選擇若幹臺 Scrapyd server，調用 Scrapyd 提供的所有 HTTP JSON API，實現一次操作，批量執行

部署項目

支持指定若幹臺 Scrapyd server 部署項目
通過配置 SCRAPY_PROJECTS_DIR 指定 Scrapy 項目開發目錄，ScrapydWeb 將自動列出該路徑下的所有項目，選擇項目後即可自動打包和部署指定項目：
如果 ScrapydWeb 運行在遠程服務器上，除了通過當前開發主機上傳常規的 egg 文件，也可以將整個項目文件夾添加到 zip/tar/tar.gz 壓縮文件後直接上傳即可，無需手動打包：)

運行爬蟲

通過下拉框直接選擇 project，version 和 spider
支持傳入 Scrapy settings 和 spider arguments
同樣支持指定若幹臺 Scrapyd server 運行爬蟲

日誌分析和可視化

默認情況下，ScrapydWeb 將在後臺定時自動讀取和分析 Scrapy log 文件並生成 Stats 頁面
爬蟲進度可視化

郵件通知

基於後臺定時讀取和分析 Scrapy log 文件，ScrapydWeb 將在滿足特定觸發器時發送通知郵件，郵件正文包含當前運行任務的統計信息。

1.添加郵箱帳號：

SMTP_SERVER = ‘smtp.qq.com‘
SMTP_PORT = 465
SMTP_OVER_SSL = True
SMTP_CONNECTION_TIMEOUT = 10

FROM_ADDR = ‘[email protected]‘
EMAIL_PASSWORD = ‘password‘
TO_ADDRS = [‘[email protected]‘]

2.設置郵件工作時間和基本觸發器，以下示例代表：每隔1小時或某一任務完成時，並且當前時間是工作日的9點，12點和17點，ScrapydWeb 將會發送通知郵件。

EMAIL_WORKING_DAYS = [1, 2, 3, 4, 5]
EMAIL_WORKING_HOURS = [9, 12, 17]
ON_JOB_RUNNING_INTERVAL = 3600
ON_JOB_FINISHED = True

3.除了基本觸發器，ScrapydWeb 還提供了多種觸發器用於處理不同類型的 log，包括 ‘CRITICAL‘, ‘ERROR‘, ‘WARNING‘, ‘REDIRECT‘, ‘RETRY‘ 和 ‘IGNORE‘等。

LOG_CRITICAL_THRESHOLD = 3
LOG_CRITICAL_TRIGGER_STOP = True
LOG_CRITICAL_TRIGGER_FORCESTOP = False
# ...
LOG_IGNORE_TRIGGER_FORCESTOP = False

以上示例代表：當發現3條或3條以上的 critical 級別的 log 時，ScrapydWeb 自動停止當前任務，如果當前時間在郵件工作時間內，則同時發送通知郵件。

GitHub 開源

活捉幾只官方大佬，趕緊前去圍觀吧，別忘了 Star 噢！

my8100 / scrapydweb
技術分享圖片

如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監控分布式爬蟲項目

配置修改 servers size 發送批量部署 image 行操作 term 來自 Scrapy 官方賬號的推薦需求分析初級用戶：只有一臺開發主機能夠通過 Scrapyd-client 打包和部署 Scrapy 爬蟲項目，以及通過 Scrapyd JS

如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監控分散式爬蟲專案

需求分析初級使用者：只有一臺開發主機能夠通過 Scrapyd-client 打包和部署 Scrapy 爬蟲專案，以及通過 Scrapyd JSON API 來控制爬蟲，感覺命令列操作太麻煩，希望能夠通過瀏覽器直接部署和執行專案專業使用者：

如何通過Scrapy簡單高效地部署和監控分散式爬蟲專案！這才是大牛

動圖展示叢集多節點部署和執行爬蟲專案：進群：960410445 即可獲取數十套PDF! 安裝和配置私信菜鳥菜鳥帶你玩爬蟲！007即可. 訪問 Web UI 通過

如何簡單高效地部署和監控分散式爬蟲專案

需求分析初級使用者：只有一臺開發主機能夠通過 Scrapyd-client 打包和部署 Scrapy 爬蟲專案，以及通過 Scrapyd JSON API 來控制爬蟲，感覺命令列操作太麻煩，希望能夠通過瀏覽器直接部署和執行專案專業使用者：有 N 臺雲主

如何簡單高效地部署和監控分散式爬蟲專案？菜鳥來教你！

初級使用者：只有一臺開發主機能夠通過 Scrapyd-client 打包和部署 Scrapy 爬蟲專案，以及通過 Scrapyd JSON API 來控制爬蟲，感覺命令列操作太麻煩，希望能夠通過瀏覽器直接部署和執行專案專業使用者：有

【Hadoop 分布式部署八：分布式協作框架Zookeeper架構功能講解及本地模式安裝部署和命令使用】

.gz 權限實現 creat info 應用 data 就是數據結構 What is Zookeeper 　　　　是一個開源的分布式的，為分布式應用提供協作服務的Apache項目　　　　提供一個簡單的原語集合，以便與分布式應用可以在他之上構建更高層次的同步服務

一個簡單的分布式爬蟲

key import ear pos -1 stat pro log 簡單的下載scrapy-redis： https://github.com/rmax/scrapy-redis 下載zip文件之後解壓建立兩個批處理文件，start.bat和clear.batst

簡單分布式爬蟲

size 下載 pat 關閉 and ict 一個 htm pid # url管理器 # url管理器 import pickle import hashlib class UrlManager(): def __init__(self): s

Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬蟲框架整合

sta 端口 pro ron 配置文件詳情 pre 流程 .py 簡介：給正在學習的小夥伴們分享一下自己的感悟，如有理解不正確的地方，望指出，感謝~ 首先介紹一下這個標題吧~ 1. Scrapy：是一個基於Twisted的異步IO框架，有了這個框架，我們就不需要等待當前U

如何優雅地用Redis實現分布式鎖

cal 沒有 cond 發現指定 finally 描述 sel 現在 https://mp.weixin.qq.com/s?__biz=MzAxNjM2MTk0Ng==&mid=2247484976&idx=2&sn=a0b6771f0b4e471

【Hadoop 分布式部署五：分布式部署之分發、基本測試及監控】

conda -s 啟動上啟 res 點擊 mon web頁面 mapr 1.對 hadoop 進行格式化　　　　到 /opt/app/hadoop-2.5.0 目錄下　　執行命令： bin/hdfs namenode -format 　　　　　　執行的效果圖

【Hadoop 分布式部署九：分布式協作框架Zookeeper架構分布式安裝部署】

文件 com info 框架分享圖片 zkserver bubuko 情況 soft 1.首先將運行在本地上的 zookeeper 給停止掉 2.到/opt/softwares 目錄下將 zookeeper解壓到 /opt/app 目錄下　　　　命令: ta

Hadoop2.5.2集群部署（完全分布式）

tex 免密碼登錄文件復制 job src 時間配置環境 8.0 上進環境介紹硬件環境 CPU 4 MEM 4G 磁盤 60G 軟件環境 OS:centos6.5版本 64位 Hadoop：hadoop2.5.2 64位 JDK: JDK 1.8.0_91 主機

Hadoop 單機版和偽分布式版安裝

single 是否 reference 問題需要 gif -c mode www. 1 依賴項 java ssh $ java -version java version "1.8.0_181" Java(TM) SE Runtime Environment (bui

selenium Gird2——瀏覽器參數化和與分布式測試

pool serve file 主機 oracle item getconf 第一次 port selenium server環境配置下載Java JDK：https://www.oracle.com/technetwork/java/javase/downloads/j

scrapydweb的初步使用（管理分布式爬蟲）

working 選擇 view 壓縮 tin lse you 恢復 width https://github.com/my8100/files/blob/master/scrapydweb/README_CN.md 一.安裝配置　　　　1、請先確保所有主機都已經安裝和

部署標準交換機和分布式交換機（三）

部署標準交換機和分布式交換機實驗目標：部署標準交換機和分布式交換機實驗要求：標準交換機的配置：分別在兩臺esxi主機中添加6塊物理網卡，橋接到vmnet1。分別在兩臺esxi主機配置標準交換機，將vSwitch0交換機添加一個物理網卡，實現負載均衡和容錯。分別在兩臺esxi主機中，將vSwitch0交換機添加

集中式（SVN）和分布式（Git）版本控制系統的簡單比較

ron table targe 特點相對 tps ble 12px pan 集中式（SVN）分布式（Git）是否有中央服務器有。開發人員需要從中央服務器獲得最新版本的項目然後在本地開發，開發完推送給中央服務器。因此脫離服

大數據之---Yarn偽分布式部署和MapReduce案例

大數據 Yarn 1、軟件環境 RHEL6 角色 jdk-8u45hadoop-2.8.1.tar.gz ? sshxx.xx.xx.xx ip地址 NN hadoop01xx.xx.xx.xx ip地址 DN hadoop02xx.xx.xx.xx ip地址 DN hadoop03xx.xx.xx

[譯]Kubernetes 分布式應用部署和人臉識別 app 實例

match RR 爭辯 interact 個人 echo 建立 HR 定義原文地址：KUBERNETES DISTRIBUTED APPLICATION DEPLOYMENT WITH SAMPLE FACE RECOGNITION APP 原文作者：skarlso

如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監控分布式爬蟲項目

需求分析

動圖展示

安裝和配置

訪問 Web UI

部署項目

運行爬蟲

日誌分析和可視化

郵件通知

GitHub 開源

相關推薦