scrapyd 部署爬蟲專案
1.cmd進入虛擬環境下載scrapyd,即pip install scrapyd,安裝完成後輸入scrapyd,啟動scrapyd服務
在瀏覽器輸入127.0.0.1:6800 即可檢視
2. 如果連線成功先關閉服務,自己在非C盤下新建一個資料夾,名稱自定義如:scrapydTest然後進入該資料夾, cmd開啟命令列工具,輸入scrapyd執行,執行完成後會新建一個dbs空資料夾,用來存放爬蟲專案的資料檔案
3.安裝scrapyd-client模組。scrapyd-client模組是專門打包scrapy爬蟲專案到scrapyd服務中的,進入虛擬環境,執行命令pip install scrapyd-client==1.1.0,安裝完成後,在虛擬環境的scripts中會出現scrapyd-deploy無後綴檔案,這個scrapyd-deploy無後綴檔案是啟動檔案,在Linux系統下可以遠行,在windows下是不能執行的,所以我們需要編輯一下使其在windows可以執行,複製讓後右鍵編輯字尾加上.bat,完成後
4.cmd進入虛擬環境,進入到你的爬蟲專案中,進入帶有scrapy.cfg檔案的目錄,執行scrapyd-deploy,測試scrapyd-deploy是否可以執行
5.開啟爬蟲專案中的scrapy.cfg檔案,這個檔案就是給scrapyd-deploy使用的將url這行程式碼解掉註釋,並且給設定你的部署名稱
5.再次執行scrapyd-deploy -l 啟動服務,可以看到設定的名稱
6.開始打包前,執行一個命令:scrapy list ,這個命令執行成功說明可以打包了,如果沒執行成功說明還有工作沒完成
注意執行 scrapy list 命令的時候很有可能出現錯誤,如果是python無法找到scrapy專案,需要在scrapy專案裡的settings.py配置檔案裡設定成python可識別路徑,如果錯誤提示,什麼遠端計算機拒絕,說明你的scrapy專案有連結遠端計算機,如連結資料庫或者elasticsearch(搜尋引擎)之類的,需要先將連結伺服器啟動執行 scrapy list 命令返回了爬蟲名稱說明一切ok了
7.到此我們就可以開始打包scrapy專案到scrapyd了,用命令結合scrapy專案中的scrapy.cfg檔案設定來打包
執行打包命令: scrapyd-deploy 部署名稱 -p 專案名稱
curl http://localhost:6800/schedule.json -d project=專案名稱 -d spider=爬蟲名稱
可以去網頁中127.0.0.1:6800檢視爬蟲執行狀態
停止爬蟲
curl http://localhost:6800/cancel.json -d project=scrapy專案名稱 -d job=執行ID
刪除scrapy專案
注意:一般刪除scrapy專案,需要先執行命令停止專案下在遠行的爬蟲
curl http://localhost:6800/delproject.json -d project=scrapy專案名稱
檢視有多少個scrapy專案在api中
檢視指定的scrapy專案中有多少個爬蟲
curl http://localhost:6800/listspiders.json?project=scrapy專案名稱