Scrapy視覺化管理管理工具總結
阿新 • • 發佈:2018-12-13
本文總結了與Scrapy框架相關的一些開源工具
1、scrapyd
專案地址:https://github.com/scrapy/scrapyd
Scrapyd 是一個執行 Scrapy 爬蟲程式的服務
pip install scrapyd
scrapyd # 啟動服務
環境測試: http://localhost:6800/
2、ScrapydAPI
專案地址:https://github.com/djm/python-scrapyd-api
一個 Scrapyd API 的python封裝
pip install python-scrapyd-api
from scrapyd_api import ScrapydAPI
scrapyd = ScrapydAPI('http://localhost:6800')
3、ScrapydArt
專案地址:https://github.com/dequinns/ScrapydArt
ScrapydArt在Scrapyd基礎上新增了許可權驗證、篩選過濾、排序、資料統計以及排行榜等功能,並且有了更強大的API
pip install scrapydart
$ scrapydart # 啟動
web介面 http://localhost:6800
4、ScrapydWeb
專案地址:https://github.com/my8100/scrapydweb
功能特性:
Scrapyd 叢集管理
Scrapy 日誌分析
支援所有 Scrapyd API
web UI 支援 Basic Auth
pip install scrapydweb
$ scrapydweb -h # 初始化
$ scrapydweb # 啟動
5、Gerapy
專案地址:https://github.com/Gerapy/Gerapy
一款分散式爬蟲管理框架
控制爬蟲執行,
檢視爬蟲狀態,
檢視爬取結果,
專案部署,
主機管理,
編寫爬蟲程式碼
pip3 install gerapy
$ gerapy init
$ cd gerapy
$ gerapy migrate
$ gerapy runserver
web介面: http://localhost:8000
6、SpiderKeeper
專案地址:https://github.com/DormyMo/SpiderKeeper
一個scrapyd的視覺化工具
pip install spiderkeeper
$ spiderkeeper # 啟動
web ui : http://localhost:5000
總結
分類 | 名稱 | 簡介 |
---|---|---|
爬蟲框架 | Scrapy | 爬蟲程式 |
服務端 | Scrapyd | Scrapy爬蟲管理程式 |
服務端 | ScrapydArt | 增強版的 Scrapyd |
客戶端 | ScrapydAPI | 對Scrapyd API的封裝 |
客戶端 | ScrapydWeb | 管理排程 Scrapyd |
客戶端 | Gerapy | 管理排程 Scrapyd |
客戶端 | SpiderKeeper | 管理排程 Scrapyd |