1. 程式人生 > >Scrapy視覺化管理管理工具總結

Scrapy視覺化管理管理工具總結

本文總結了與Scrapy框架相關的一些開源工具

1、scrapyd

專案地址:https://github.com/scrapy/scrapyd

Scrapyd 是一個執行 Scrapy 爬蟲程式的服務

pip install scrapyd

scrapyd  # 啟動服務

環境測試: http://localhost:6800/
在這裡插入圖片描述

2、ScrapydAPI

專案地址:https://github.com/djm/python-scrapyd-api

一個 Scrapyd API 的python封裝

pip install python-scrapyd-api
from
scrapyd_api import ScrapydAPI scrapyd = ScrapydAPI('http://localhost:6800')

3、ScrapydArt

專案地址:https://github.com/dequinns/ScrapydArt

ScrapydArt在Scrapyd基礎上新增了許可權驗證、篩選過濾、排序、資料統計以及排行榜等功能,並且有了更強大的API

pip install scrapydart 

$ scrapydart  # 啟動

web介面 http://localhost:6800
在這裡插入圖片描述

4、ScrapydWeb

專案地址:https://github.com/my8100/scrapydweb

功能特性:
Scrapyd 叢集管理
Scrapy 日誌分析
支援所有 Scrapyd API
web UI 支援 Basic Auth

pip install scrapydweb

$ scrapydweb -h    # 初始化
$ scrapydweb  # 啟動

管理頁面:http://127.0.0.1:5000

在這裡插入圖片描述

參考:
如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監控分散式爬蟲專案

5、Gerapy

專案地址:https://github.com/Gerapy/Gerapy

一款分散式爬蟲管理框架
控制爬蟲執行,
檢視爬蟲狀態,
檢視爬取結果,
專案部署,
主機管理,
編寫爬蟲程式碼

pip3 install gerapy

$ gerapy init
$ cd gerapy
$ gerapy migrate
$ gerapy runserver

web介面: http://localhost:8000
在這裡插入圖片描述

參考:
scrapyd部署、使用Gerapy 分散式爬蟲管理框架

6、SpiderKeeper

專案地址:https://github.com/DormyMo/SpiderKeeper
一個scrapyd的視覺化工具

pip install spiderkeeper

$ spiderkeeper  # 啟動

web ui : http://localhost:5000
在這裡插入圖片描述

總結

分類 名稱 簡介
爬蟲框架 Scrapy 爬蟲程式
服務端 Scrapyd Scrapy爬蟲管理程式
服務端 ScrapydArt 增強版的 Scrapyd
客戶端 ScrapydAPI 對Scrapyd API的封裝
客戶端 ScrapydWeb 管理排程 Scrapyd
客戶端 Gerapy 管理排程 Scrapyd
客戶端 SpiderKeeper 管理排程 Scrapyd