1. 程式人生 > 程式設計 >爬蟲管理平臺Crawlab v0.3.1釋出(Docker映象優化)

爬蟲管理平臺Crawlab v0.3.1釋出(Docker映象優化)

Crawlab是基於Golang的分散式爬蟲管理平臺,支援Python、NodeJS、Java、Go、PHP等多種程式語言以及多種爬蟲框架。

專案自今年三月份上線以來受到爬蟲愛好者們和開發者們的好評,不少使用者還表示會用Crawlab搭建公司的爬蟲平臺。現在Github上已經有2k stars,Dockerhub上有1.4k pulls。經過近數月的迭代,我們陸續上線了定時任務、資料分析、可配置爬蟲、自動提取欄位、下載結果、上傳爬蟲、Docker部署等功能,將Crawlab打造得更加實用,更加全面,能夠真正幫助使用者解決爬蟲管理困難的問題。

Crawlab主要解決的是大量爬蟲管理困難的問題,例如需要監控上百個網站的參雜scrapy

selenium的專案不容易做到同時管理,而且命令列管理的成本非常高,還容易出錯。Crawlab支援任何語言和任何框架,配合任務排程、任務監控,很容易做到對成規模的爬蟲專案進行有效監控管理。

更新內容

本次更新v0.3.1是一次優化更新,主要針對Docker映象的優化、前端優化、以及一些Bug修復。

更新內容如下:

功能 / 優化

  • Docker映象優化:將Docker映象進一步分離成master、worker、frontend以加強生產環境支援,並用alpine映象減少體積
  • 單元測試:用單元測試用例覆蓋部分後端Golang程式碼
  • 前端優化:登入頁、按鈕大小、提示等UI優化
  • 更靈活的節點註冊:允許使用者傳一個變數來區分節點,預設是用MAC地址(對於需要多機器部署的使用者,可以檢視這個功能)

Bug修復

  • 上傳大爬蟲檔案出錯:上傳大爬蟲檔案會引起記憶體溢位. #150
  • 無法同步爬蟲檔案:增加寫許可權繞開許可權不夠導致同步爬蟲失敗的問題. #114
  • 爬蟲頁面問題:移除爬蟲頁面“網站”這個欄位來修復. #112
  • 節點展示問題:當多機器用docker執行節點時,只顯示一個節點的問題,通過傳變數作為標示符來解決. #99

接下來的計劃

  • 可配置爬蟲
  • 日誌集中管理
  • 異常監控報警
  • RBAC許可權控制
  • JWT許可權驗證優化
  • 介面安裝第三方包

我們正在計劃接下來的安排,包括各個任務的優先順序、如何實現等等。如果有朋友對相關功能或其他功能感興趣,請在Github Issues提出來,或者加作者微信tikazyq1告訴我們。

社群

如果您覺得Crawlab對您的日常開發或公司有幫助,請加作者微信 tikazyq1 並註明"Crawlab",作者會將你拉入群。歡迎在Github上進行star,以及,如果遇到任何問題,請隨時在Github上提issue。另外,歡迎您對Crawlab做開發貢獻。