scrapyd 常用部署命令 & 遠端監控 & 爬蟲指令碼
阿新 • • 發佈:2018-11-16
一. 部署&執行
deploy: 部署scrapy爬蟲程式
# scrapyd-deploy 部署伺服器名 -p 專案名稱
scrapyd-deploy ubuntu -p douyu
run : 執行
#curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_name
curl http://127.0.0.1:6800/schedule.json -d project=douyu -d spider=dy
stop: 停止
#curl http://localhost:6800/cancel.json -d project=project_name -d job=jobid curl http://127.0.0.1:6800/cancel.json -d project=douyu -d job=$1
二. 允許外部訪問配置
定位配置檔案: default_scrapyd.conf
find /home/wg -name default_scrapyd.conf
cd /home/wg/scrapy_env/lib/python3.6/site-packages/scrapyd
允許外部訪問:
vim default_scrapyd.conf
bind_address = 0.0.0.0
三. 遠端監控-url指令:
1、獲取狀態
http://127.0.0.1:6800/daemonstatus.json
2、獲取專案列表
http://127.0.0.1:6800/listprojects.json
3、獲取專案下已釋出的爬蟲列表
http://127.0.0.1:6800/listspiders.json?project=myproject
4、獲取專案下已釋出的爬蟲版本列表
http://127.0.0.1:6800/listversions.json?project=myproject
5、獲取爬蟲執行狀態
http://127.0.0.1:6800/listjobs.json?project=myproject
6、啟動伺服器上某一爬蟲(必須是已釋出到伺服器的爬蟲)
http://127.0.0.1:6800/schedule.json (post方式,data={"project":myproject,"spider":myspider})
7、刪除某一版本爬蟲
http://127.0.0.1:6800/delversion.json
(post方式,data={"project":myproject,"version":myversion})
8、刪除某一工程,包括該工程下的各版本爬蟲
http://127.0.0.1:6800/delproject.json(post方式,data={"project":myproject})
四. 常用指令碼
迴圈任務:
while true
do
curl http://127.0.0.1:6800/schedule.json -d project=FXH -d spider=five_sec_info
sleep 10
done
實時時間列印:
echo "$(date +%Y-%m-%d:%H:%M.%S), xx-spider定時啟動--"