爬蟲部署，服務端安裝使用scrapyd，客戶端安裝scrapy-client，利用scrapy-client 釋出爬蟲到遠端服務端

阿新 • • 發佈：2021-10-10

####

服務端安裝使用scrapyd

下面的操作是在遠端的伺服器操作，

1，建立虛擬環境，虛擬環境名為sd

2，pip3 install scrapyd

3. 配置

mkdir /etc/scrapyd

vim /etc/scrapyd/scrapyd.conf

4，寫入一下配置

參考官網：https://scrapyd.readthedocs.io/en/stable/config.html#config

[scrapyd]
eggs_dir    = eggs
logs_dir    = logs
items_dir   =
jobs_to_keep = 5
dbs_dir     = dbs
max_proc    = 0
max_proc_per_cpu = 4
finished_to_keep = 100
poll_interval = 5.0
#bind_address = 127.0.0.1  
bind_address = 0.0.0.0
http_port   = 6800
debug       = off
runner      = scrapyd.runner
application = scrapyd.app.application
launcher    = scrapyd.launcher.Launcher
webroot     = scrapyd.website.Root

[services]
schedule.json     = scrapyd.webservice.Schedule
cancel.json       = scrapyd.webservice.Cancel
addversion.json   = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json  = scrapyd.webservice.ListSpiders
delproject.json   = scrapyd.webservice.DeleteProject
delversion.json   = scrapyd.webservice.DeleteVersion
listjobs.json     = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus

###

bind_address：預設是本地127.0.0.1，修改為0.0.0.0，可以讓外網訪問。

一. 部署&執行
deploy: 部署scrapy爬蟲程式

# scrapyd-deploy  部署伺服器名 -p 專案名稱
scrapyd-deploy  ubuntu -p douyu
run : 執行

#curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_name
curl http://127.0.0.1:6800/schedule.json -d project=douyu -d spider=dy
stop: 停止

#curl http://localhost:6800/cancel.json -d project=project_name -d job=jobid
curl http://127.0.0.1:6800/cancel.json -d project=douyu -d job=$1
 

二. 允許外部訪問配置
定位配置檔案： default_scrapyd.conf
find /home/wg -name default_scrapyd.conf
cd /home/wg/scrapy_env/lib/python3.6/site-packages/scrapyd
允許外部訪問：
vim default_scrapyd.conf
bind_address = 0.0.0.0

三. 遠端監控-url指令:
1、獲取狀態
http://127.0.0.1:6800/daemonstatus.json

2、獲取專案列表
http://127.0.0.1:6800/listprojects.json

3、獲取專案下已釋出的爬蟲列表
http://127.0.0.1:6800/listspiders.json?project=myproject

4、獲取專案下已釋出的爬蟲版本列表
http://127.0.0.1:6800/listversions.json?project=myproject

5、獲取爬蟲執行狀態
http://127.0.0.1:6800/listjobs.json?project=myproject

6、啟動伺服器上某一爬蟲（必須是已釋出到伺服器的爬蟲）
http://127.0.0.1:6800/schedule.json  （post方式，data={"project":myproject,"spider":myspider}）

7、刪除某一版本爬蟲
http://127.0.0.1:6800/delversion.json（post方式，data={"project":myproject,"version":myversion}）

8、刪除某一工程，包括該工程下的各版本爬蟲
http://127.0.0.1:6800/delproject.json（post方式，data={"project":myproject}）

四. 常用指令碼
迴圈任務：

while true
do
    curl http://127.0.0.1:6800/schedule.json -d project=FXH -d spider=five_sec_info
    sleep 10
done
 

實時時間列印：

echo "$(date +%Y-%m-%d:%H:%M.%S), xx-spider定時啟動--"

#####

啟動：

scrapyd

檢視伺服器本機ip，獲取到ip地址，

瀏覽器中訪問：

192.168.12.80:6800

能正常訪問就說明這個成功了，

#####

客戶端安裝安裝scrapyd-client

1. 安裝scrapyd-client

pip3 install scrapyd-client

2.驗證是否安裝成功，

安裝成功後會有一個可用命令，叫作scrapyd-deploy，即部署命令。

我們可以輸入如下測試命令測試Scrapyd-Client是否安裝成功：

3. crapyd-deploy 不是內部命令，所以需要進行專案配置

windows下的scrapyd-deploy無法執行的解決辦法
.進到c:/python/Scripts 目錄下，建立兩個新檔案：
scrapy.bat
scrapyd-deploy.bat

編輯兩個檔案：
scrapy.bat檔案中輸入以下內容 ：

@echo off
"C:\Python36" "C:\Python36\Scripts\scrapy" %*

scrapyd-deploy.bat 檔案中輸入以下內容：
@echo off
"C:\Python36\python" "C:\Python36\Scripts\scrapyd-deploy" %*

#####

4.再次檢視

這樣就可以了，

利用scrapy-client 釋出爬蟲到遠端服務端

遠端服務端Scrapyd先要開啟

遠端伺服器必須裝有scapyd,並開啟。

###

客戶端配置和上傳

先修爬蟲專案檔案scrapy.cfg:如下圖

cd 到爬蟲專案資料夾下，後執行：

scrapyd-deploy # 上傳

scrapyd-deploy -l # 檢視

打包專案

1、打包前先檢視專案下的爬蟲檔案：

說明可以開始打包了

2.執行打包命令：

scrapyd-deploy部署名稱-p專案名稱

上面表示打包成功。

以下是可能出現的問題，以及解決方案：

如果出現後端報錯和scrapyd前端頁面報錯，解決方案：

scrapyd 前端報錯：

修改遠端伺服器（192.168.12.80）上的Twisted的版本改為 18.9.0

pip3 install Twisted==18.9.0

重啟 Scrapyd:

在訪問192.168.12.80:6800/jobs，正常顯示:

3.上傳執行爬蟲

curl http://遠端ip:6800/schedule.json -d project=專案名稱 -d spider=爬蟲名稱
如：
curl http://192.168.12.80:6800/schedule.json -d project=circ -d spider=bjh

說明部署成功：

scrapyd部署已經完成了。

管理　

1、停止爬蟲

curl http://localhost:6800/cancel.json -d project=scrapy專案名稱 -d job=執行ID

2.刪除scrapy專案
　　注意：一般刪除scrapy專案，需要先執行命令停止專案下在遠行的爬蟲

curl http://localhost:6800/delproject.json -d project=scrapy專案名稱

3.檢視有多少個scrapy專案在api中

curl http://localhost:6800/listprojects.json

4.檢視指定的scrapy專案中有多少個爬蟲

curl http://localhost:6800/listspiders.json?project=scrapy專案名稱

5總結幾個請求url，通過在瀏覽器輸入，也可以監控爬蟲程序。

例子：位址列訪問：http://192.168.12.80:6800/daemonstatus.json，獲取到一下頁面

#####

爬蟲部署，服務端安裝使用scrapyd，客戶端安裝scrapy-client，利用scrapy-client 釋出爬蟲到遠端服務端

#### 服務端安裝使用scrapyd 下面的操作是在遠端的伺服器操作， 1，建立虛擬環境，虛擬環境名為sd

【Azure 應用服務】應用程式碼需要客戶端證書進行驗證，部署到App Service後，如何配置讓客戶端攜帶證書呢？

問題描述 .NET 6 MVC應用，程式碼中要求客戶端訪問時候必須攜帶正確的證書，如果不攜帶或者攜帶錯誤的證書，都會得到 HTTP ERROR 403Forbidden錯誤

win10 vmware 升級提示 “無法安裝服務VMAuthdService”，請確保您有足夠的許可權安裝系統服務

可以嘗試下面的設定，獲取超級管理員許可權，看看在超級管理員賬戶裡的操作是否正常：1. 開啟開始選單，輸入【CMD】找到【命令提示符】，右擊【以管理員身份開啟】2. 在【命令提示符（管理員）】中，輸入如下命令後

分享專案中在用的asp.net下載業務的服務端基類(支援客戶端顯示下載百分比進度，支援併發數控制，支援限速)

/// <summary> /// 功能簡介：asp.net的下載業務的服務端基類(支援客戶端顯示下載百分比進度，支援併發數控制，支援限速)

使用TCPdump 抓取http報文，解析http報文格式及客戶端、服務端互動過程

技術標籤：網路TCP...httptcpiptcpdump 目錄一.3次握手建立連線二.客戶端傳送請求: 請求行(URL POST http版本 ) + 請求頭部 + 請求資料

最近遇到需要利用CleanWipe才能解除安裝賽門客戶端，怎麼利用域策略批量解除安裝呢

域策略利用CleanWipe批量解除安裝賽門防毒終端最近遇到程式那裡無法解除安裝賽門終端，需要利用CleanWipe才能解除安裝賽門客戶端，因為終端有點多，又不想一臺一臺去解除安裝怎麼辦？

【Azure 應用服務】App Service For Linux 怎麼安裝Composer，怎麼安裝PHP擴充套件，怎麼來修改站點根路徑啟動程式？

問題一：App Service 的預設啟動路徑為wwwroot，如何修改到到PHP程式碼執行目錄呢？如Laravel的啟動目錄為public/？那如何修改呢？

Exchange 2013和2019共存部署實驗系列（三）Exchange2013客戶端訪問服務安裝

前面已安裝過Windows元件和必備元件，此處從客戶端訪問服務角色直接開始。

【Azure 應用服務】在App Service中呼叫外部服務API時需要攜帶客戶端證書，而多次呼叫的情況下會出現WindowsCryptographicException Keyset does not exist異常

問題描述在App Service中呼叫外部服務API時需要攜帶客戶端證書，而多次呼叫的情況下會出現WindowsCryptographicException Keyset does not exist異常。

一文徹底理解Redis序列化協議，你也可以編寫Redis客戶端

前提最近學習Netty的時候想做一個基於Redis服務協議的編碼解碼模組，過程中順便閱讀了Redis服務序列化協議RESP，結合自己的理解對檔案進行了翻譯並且簡單實現了RESP基於Java語言的解析。編寫本文的使用使用的JDK版本

在Ubuntu 18.04中安裝Wine QQ、微信、TIM，並安裝圖示托盤

近日重新安裝了Ubuntu 18.04，因此要重新安裝一下Wine QQ、微信之類的，完整安裝Wine系列軟體一直是一個老大難的問題，網上搜集到的部落格也比較零散，因此這裡特此寫篇部落格記錄一下

你說要你想玩爬蟲，但你說你不懂Python正則表示式，我信你個鬼，那你還不來看看？

前言正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。

前後端分離，Vue+SpringBoot2.0 + Shiro 跨域問題（操作簡單，無耦合到令人不敢相信）

最近公司做的前後端分離的專案（之前沒有做前後端分離），所以這裡就設計到了跨域的問題了

Ubuntu 18.04在已經安裝Docker CE後如何安裝NVIDIA-Docker，以使docker容器內可以使用宿主機顯示卡

注意：本文是在電腦上已經安裝好docker環境的前提下進行的。 docker環境如何安裝參照前文。

linux下，jdk的安裝、安裝後的版本及安裝路徑的檢視

jdk安裝版本檢視命令 jdk安裝路徑的檢視命令 jdk的安裝：官網下載地址：https://www.oracle.com/cn/java/technologies/javase-downloads.html

【安裝教程】win10+Python3.6+TensorFlow-GPU，那些筆者踩過的坑！直接pip安裝TensorFlow

新手必看的TensorFlow安裝教程，話不多說直接上乾貨。先說一下博主的電腦配置，Dell，i5，win10。不過這些都不重要，但是電腦一定要帶NVIDIA獨顯。

公司Java後端工作四年一直crud，最後靠這份阿里核心筆記調入研發部門，淦!

前言： 21世紀網際網路時代發展迅速，作為程式設計師的你，如果現在你還只是在做著crud的工作，那麼你離告別這個行業也就不遠了，如果你不想得過且過的寫業務程式碼，更想突破設計思想，那麼對於網際網路公

為什麼csrss程序有三個_什麼是客戶端伺服器執行時程序（csrss.exe），為什麼在我的PC上執行它？...

為什麼csrss程序有三個 If you have a Windows PC, open your Task Manager and you’ll definitely see one or more Client Server Runtime Process (csrss.exe) processes running on your PC. Th

directx安裝後找不到_如何下載，安裝，更新到最新的DirectX

directx安裝後找不到 DirectX a software package where provides multimedia related functionalities, libraries, and applications in Windows operating systems. Generally, DirectX provides dif

端到端問答新突破：百度提出RocketQA，登頂MSMARCO榜首！

*歡迎關注【百度NLP】官方公眾號，及時獲取自然語言處理領域核心技術乾貨！！ **閱讀原文：https://mp.weixin.qq.com/s/K_7_LgMZf1MuS4IJI6gdsw

爬蟲部署，服務端安裝使用scrapyd，客戶端安裝scrapy-client，利用scrapy-client 釋出爬蟲到遠端服務端

服務端安裝使用scrapyd

客戶端安裝安裝scrapyd-client

利用scrapy-client 釋出爬蟲到遠端服務端

客戶端配置和上傳

打包專案

管理

相關推薦

管理