手把手教你使用爬蟲管理工具|Scrapyd的使用

阿新 • • 發佈：2020-10-14

Scrapyd-網頁版分佈爬蟲管理器

scrapyd英文文件:https://scrapyd.readthedocs.io/en/stable/

scrapyd中文文件：https://piaosanlang.gitbooks.io/spiders/05day/section5.3.html

專案地址:https://github.com/scrapy/scrapyd

前言

今天介紹的是scrapyd，是scrapy專案下的一個子專案，主要是用來便於管理分散式爬蟲，根據上一篇分散式scrapy爬蟲我們可以知道，我們寫好分散式爬蟲之後往往需要放到多個爬蟲伺服器上，當然也是可以放在一個伺服器上，但是多個爬蟲服務同時開啟管理起來就比較麻煩，今天介紹的scrapyd就是用來管理多個並行爬蟲的工具。

準備

電腦一臺
伺服器一臺(也可以不用)
之前的scrapy專案----news

scarpyd實戰案例

1.安裝環境

在windows環境下使用pip intsall scrapyd-client安裝scrapyd客戶端

之後在爬蟲伺服器端使用pip install scrapyd安裝伺服器端（我是用的是linux環境做伺服器，linux的具體操作可以使看之前的推文linux教程）

在客戶端找到python安裝路徑裡的script檔案，進入後你會發現裡邊有一個scrapyd-deploy是沒有後綴的

在這個路徑下新建一個bat檔案，在裡邊輸入以下內容

之後儲存即可。

2.專案上傳

在上傳之前需要先修改一下news爬蟲的內容，在爬蟲專案根目錄下的scrapy.cfg。

之後開啟cmd進到爬蟲的目錄之後輸入以下命令：

之後就將專案上傳到伺服器上了，然後在伺服器輸入scrapyd就打開了scrapyd伺服器了。

3.啟動爬蟲

在客戶端cmd輸入：

curl http://伺服器ip:6800/schedule.json -d project=工程名(news) -d spider=爬蟲名(news_spider)

爬蟲就自動開啟了

4.關閉爬蟲:

在客戶端cmd輸入：

curl http://爬蟲ip:6800/cancel.json -d project=news -d job=jobid（後邊會說明）

5.效果展示

jobid相當於每個開啟的爬蟲的一個身份證，結束爬蟲的時候需要用到。

常見問題

問題一：在客戶端打不開伺服器端管理網頁

發現是本地環回地址

解決思路：在伺服器端使用命令find / -name scrapyd.conf,找到配置檔案之後，進行修改，將bind_address改成0.0.0.0(vi操作在linux入門中第三篇)

問題二:使用瀏覽器訪問伺服器地址的時候始終無法訪問

解決思路：不要使用2345瀏覽器或者其他瀏覽器訪問，換成Chrome就可以解決問題。

總結

在爬蟲較多比較難管理的時候可是考慮使用scrapyd進行管理，管理起來比較方便，並且部署起來難度也不是很大。並且可以使用Gerapy和scrapyd相結合來實現視覺化的效果。

Colorful Neon Marble Gaming Youtube Channel Art.jpg

手把手教你使用爬蟲管理工具|Scrapyd的使用

Scrapyd-網頁版分佈爬蟲管理器 scrapyd英文文件:https://scrapyd.readthedocs.io/en/stable/ scrapyd中文文件：https://piaosanlang.gitbooks.io/spiders/05day/section5.3.html

手把手教你搭建腳手架工具 - (commander)

隨著Nodejs的不斷髮展，對於前端來說要做的東西也就更多，vue腳手架react腳手架等等等一系列的東西都脫穎而出，進入到人們的視野當中，對於這些腳手架工具來講也只是停留在應用階段，從來沒有想過腳手架是如何實現的

手把手教你管理win10系統雲端同步檔案

工作和日常需要儲存的檔案資料在電腦中，如果外出辦公臨時要用到檔案還得叫同事開啟電腦傳輸，相對來說比較麻煩。其實我們可將檔案傳輸到雲端同步，便於隨時開啟，但云端檔案不同於本地檔案那樣易於管理，易發版本衝

Python爬蟲：手把手教你寫迷你爬蟲架構

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

網路爬蟲有什麼用？怎麼爬？手把手教你爬網頁（Python程式碼）

導讀：本文主要分為兩個部分：一部分是網路爬蟲的概述，幫助大家詳細瞭解網路爬蟲；另一部分是HTTP請求的Python實現，幫助大家瞭解Python中實現HTTP請求的各種方式，以便具備編寫HTTP網路程式的能力。

爬取動漫美女，手把手教你用Python網路爬蟲獲取動漫圖片

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

【震驚】手把手教你用python做繪圖工具（一）

在這篇部落格裡將為你介紹如何通過numpy和cv2進行結和去建立畫布，包括空白畫布、白色畫布和彩色畫布。建立畫布是製作繪圖工具的前提，有了畫布我們就可以在畫布上盡情的揮灑自己的藝術細胞。

手把手教你使用Rollup打包📦併發布自己的工具庫🔧

DevUI是一支兼具設計視角和工程視角的團隊，服務於華為雲DevCloud平臺和華為內部數箇中後臺系統，服務於設計師和前端工程師。

Python爬蟲教你獲取4K超清桌布圖片，手把手教你跟我一起爬！

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

手把手教你用SonarQube+Jenkins搭建--前端專案--程式碼質量管理平臺 (Window系統)

前言網上教程大多介紹的是Linux系統下SonarQube+Jenkins如何使用，這是因為這兩款軟體一般都是部署在伺服器上，而大多數伺服器，採用的都是Linux系統。大多數伺服器用Linux的原因是：

手把手教你用WinForm製作地圖編輯工具（二）

從今天開始，進入正題一、建立專案　　1.1 建立一個WinForm專案，我這兒用的是.NET Framework4.6.2

手把手教你學Dapr - 5. 狀態管理

上一篇：手把手教你學Dapr - 4. 服務呼叫介紹使用狀態管理，您的應用程式可以將資料作為鍵/值對儲存在支援的狀態儲存中。

手把手教你做資料運營與管理播報文章

手把手教你做資料運營與管理播報文章人人都是產品經理釋出時間: 2020-05-14 17:21鯤鵬計劃獲獎作者

手把手教你用Python網路爬蟲進行多執行緒採集高清遊戲桌布

一、背景介紹大家好，我是皮皮。對於不同的資料我們使用的抓取方式不一樣,圖片,視訊,音訊,文字,都有所不同,由於網站圖片素材過多,所以今天我們使用多執行緒的方式採集某站4K高清桌布。

手把手教你Charles抓包工具使用

Charles簡介Charles是一個HTTP代理伺服器,HTTP監視器,反轉代理伺服器，當瀏覽器連線Charles的代理訪問網際網路時，Charles可以監控瀏覽器傳送和接收的所有資料。它允許一個開發者檢視所有連線網際網路的HTTP通訊，這

手把手教你如何高效落地專案管理 | 一看既會

手把手教你如何高效落地專案管理，雲效Projex是新一代企業級研發協作平臺，集成了敏捷研發專案管理的最佳實踐，提供了針對專案、迭代、需求、缺陷等多個維度的協同管理以及相關的統計報告，讓研發團隊高效協作、踐行

手把手教你MySQL查詢優化分析

前言 MySQL是關係性資料庫中的一種，查詢功能強，資料一致性高，資料安全性高，支援二級索引。但效能方面稍遜於非關係性資料庫，特別是百萬級別以上的資料，很容易出現查詢慢的現象。這時候需要分析查詢慢的原因，一

手把手教你用 Node 實現 HTTP 協議（三）

手把手教你用 Node 實現 HTTP 協議（三）上一章介紹瞭如何解析 HTTP 請求報文，這一章我們來講解如何進行報文的收發和 TCP 連線的建立。

手把手教你使用Hexo+GitHub搭建自己的個人部落格網站

安裝nodejs環境這個直接搜尋安裝即可，安裝完成之後，通過如下命令檢測環境變數是否安裝成功：

手把手教你，如何在windows系統搭建mysql主從複製的環境

背景最近在學習用Spring Aop來實現資料庫讀寫分離的功能。在編寫程式碼之前，首先是要部署好mysql的環境，因為要實現讀寫分離，所以至少需要部署兩個mysql例項，一主一從，並且主從例項之間能夠自動同步，因為我的

手把手教你使用爬蟲管理工具|Scrapyd的使用

相關推薦