爬蟲管理平臺Crawlab v0.3.1釋出(Docker映象優化)
阿新 • • 發佈:2019-12-31
Crawlab是基於Golang的分散式爬蟲管理平臺,支援Python、NodeJS、Java、Go、PHP等多種程式語言以及多種爬蟲框架。
專案自今年三月份上線以來受到爬蟲愛好者們和開發者們的好評,不少使用者還表示會用Crawlab搭建公司的爬蟲平臺。現在Github上已經有2k stars,Dockerhub上有1.4k pulls。經過近數月的迭代,我們陸續上線了定時任務、資料分析、可配置爬蟲、自動提取欄位、下載結果、上傳爬蟲、Docker部署等功能,將Crawlab打造得更加實用,更加全面,能夠真正幫助使用者解決爬蟲管理困難的問題。
Crawlab主要解決的是大量爬蟲管理困難的問題,例如需要監控上百個網站的參雜scrapy
selenium
的專案不容易做到同時管理,而且命令列管理的成本非常高,還容易出錯。Crawlab支援任何語言和任何框架,配合任務排程、任務監控,很容易做到對成規模的爬蟲專案進行有效監控管理。
- 檢視演示 Demo
- Github: github.com/crawlab-tea…
更新內容
本次更新v0.3.1
是一次優化更新,主要針對Docker映象的優化、前端優化、以及一些Bug修復。
更新內容如下:
功能 / 優化
- Docker映象優化:將Docker映象進一步分離成master、worker、frontend以加強生產環境支援,並用alpine映象減少體積
- 單元測試:用單元測試用例覆蓋部分後端Golang程式碼
- 前端優化:登入頁、按鈕大小、提示等UI優化
- 更靈活的節點註冊:允許使用者傳一個變數來區分節點,預設是用MAC地址(對於需要多機器部署的使用者,可以檢視這個功能)
Bug修復
- 上傳大爬蟲檔案出錯:上傳大爬蟲檔案會引起記憶體溢位. #150
- 無法同步爬蟲檔案:增加寫許可權繞開許可權不夠導致同步爬蟲失敗的問題. #114
- 爬蟲頁面問題:移除爬蟲頁面“網站”這個欄位來修復. #112
- 節點展示問題:當多機器用docker執行節點時,只顯示一個節點的問題,通過傳變數作為標示符來解決. #99
接下來的計劃
- 可配置爬蟲
- 日誌集中管理
- 異常監控報警
- RBAC許可權控制
- JWT許可權驗證優化
- 介面安裝第三方包
我們正在計劃接下來的安排,包括各個任務的優先順序、如何實現等等。如果有朋友對相關功能或其他功能感興趣,請在Github Issues提出來,或者加作者微信tikazyq1告訴我們。
社群
如果您覺得Crawlab對您的日常開發或公司有幫助,請加作者微信 tikazyq1 並註明"Crawlab",作者會將你拉入群。歡迎在Github上進行star,以及,如果遇到任何問題,請隨時在Github上提issue。另外,歡迎您對Crawlab做開發貢獻。