開源還是商用?十大雲運維監控工具橫評
隨著雲端計算和網際網路的高速發展,大量應用需要橫跨不同網路終端,並廣泛接入第三方服務(如支付、登入、導航等),IT系統架構越來越複雜。快速迭代的產品需求和良好的使用者體驗,需要IT運維管理者時刻保障核心業務穩定可用,而企業運維中的痛點和難點也急需解決。
1、面向業務的運維,不但關心單點IT資源的執行狀態,更關心整個業務系統的健康狀態
2、如果企業使用了大量的API和模組化應用,那麼關注每個介面的效能變化情況和指標
3、對於運維主管及企業管理層來說,特別需要上牆的監控大屏
4、運維需要每週、每月檢視報告趨勢分析,但傳統運維工具資料匯出困難
5、需要第一時間轉雀和快速發現故障節點,減少業務中斷帶來的損失
雲智慧對業內主流的開源運維監控系統和商業運維監控系統進行對比,分析各種產品的定位、目標使用者和功能特點,希望幫助廣大運維、開發和創業者找到最適合自己的運維工具。
開源運維監控產品篇
推薦星級:★★★★★
Zabbix是一個基於WEB介面的提供分散式系統監控以及網路監控功能的企業級開源運維平臺,也是目前國內網際網路使用者中使用最廣的監控軟體,雲智慧遇到的85%以上使用者在使用Zabbix做監控解決方案。
入門容易、上手簡單、功能強大並且開源免費是雲智慧對Zabbix的最直觀評價。Zabbix易於管理和配置,能生成比較漂亮的資料圖,其自動發 現功能大大減輕日常管理的工作量,豐富的資料採集方式和API介面可以讓使用者靈活進行資料採集,而分散式系統架構可以支援監控更多的裝置。理論上,通過 Zabbix提供的外掛式架構,可以滿足企業的任何需求。
使用者群:85%以上的泛網際網路企業。
優點:
1. 支援多平臺的企業級分散式開源監控軟體
2. 安裝部署簡單,多種資料採集外掛靈活整合
3. 功能強大,可實現複雜多條件告警,
4. 自帶畫圖功能,得到的資料可以繪成圖形
5. 提供多種API介面,支援呼叫指令碼
6. 出現問題時可自動遠端執行命令(需對agent設定執行許可權)
缺點:
1. 專案批量修改不方便
2. 社群雖然成熟,但是中文資料相對較少,服務支援有限;
3. 入門容易,能實現基礎的監控,但是深層次需求需要非常熟悉Zabbix並進行大量的二次定製開發,難度較大;
4. 系統級別報警設定相對比較多,如果不篩選的話報警郵件會很多;並且自定義的專案報警需要自己設定,過程比較繁瑣;
5. 缺少資料彙總功能,如無法檢視一組伺服器平均值,需進行二次開發;
6. 資料報表需要特殊二次開發定義;
推薦星級:★★★★☆
Nagios是一款開源的企業級監控系統,能夠實現對系統CPU、磁碟、網路等方面引數的基本系統監控,以及 SMTP,POP3,HTTP,NNTP等各種基本的服務型別。另外通過安裝外掛和編寫監控指令碼,使用者可以實現應用監控,並針對大量的監控主機和多個物件 部署層次化監控架構。
Nagios最大的特點是其強大的管理中心,儘管其功能是監控服務和主機的,但Nagios自身並不包括這部分功能程式碼,所有的監控、告警功能都是由相關外掛完成的。
使用者群:適合複雜IT環境的企業
優點:
1. 出錯的伺服器、應用和裝置會自動重啟,自動日誌滾動
2. 配置靈活,可以自定義shell指令碼,通過分散式監控模式
3. 支援以冗餘方式進行主機監控,報警設定多樣
4. 命令重新載入配置檔案無需打擾Nagios的執行
缺點:
1. 事件控制檯功能很弱,外掛易用性差
2. 對效能、流量等指標的處理不給力
3. 看不到歷史資料,只能看到報警事件,很難追查故障原因
4. 配置複雜,初學者投入的時間、精力和成本比較大
推薦星級:★★★★☆
Ganglia是加州大學伯克利分校發起的一個開源叢集監控專案,設計之初是用於監控數以千計的網路節點。Ganglia是一個跨平臺可擴充套件的,高效能運算系統下的分散式監控系統。它已被廣泛移植到各種作業系統和處理器架構上。
使用者群:適用於大型伺服器叢集使用者。
優點:
1. 適合監控系統性能,通過曲線很容易見到每個節點的工作狀態
2. 可以自定義監控項,監控展示有表格和影象兩種,支援手機版
3. 部署方便,通過不同的分層管理上萬臺機器,無需逐個新增配置
缺點:
1. 沒有內建的訊息通知系統
2. 沒有報警機制,出現問題不能夠及時報警
推薦星級:★★★★☆
Zenoss Core是Zenoss的開源版本,其商用版本為ZenossEnterprise。作為企業級智慧監控軟體,Zenoss Core允許IT管理員依靠單一的WEB控制檯來監控網路架構的狀態和健康度。Zenoss Core的強大能力來自於深入的列表與配置管理資料庫,以發現和管理公司IT環境的各類資產。Zenoss同時提供與CMDB關聯的事件和錯誤管理系統, 以協助提高各類事件和提醒的管理效率。
優點:
1. Zenoss比較出色的地方在於它的Dashboard,可以配置很多portlet
2. 每個使用者的介面都是分開管理的,自定義dashboard不會影響其他使用者
3. 強大監控功能支援伺服器、路由交換、防火牆、儲存、資料庫、中介軟體監控
4. 採用基於HBASE的opentsdb儲存任意時間段的資料
5. 將狀態監控,效能監控,資源管理,良好的報告機制進行有機的整合
缺點:
1. 對資源要求較高,即使只管理少數幾臺裝置,也需要消耗大量硬體及記憶體等附加資源。
2. 針對windows系統,開源版只提供SNMP,通過WMI檢測CPU,Disk,軟硬體和效能只在收費版提供。
推薦星級:★★★☆☆
Open-falcon是小米運維團隊從網際網路公司的需求出發,根據多年的運維經驗,結合SRE、SA、DEVS的使用經驗和反饋,開發的一套面向網際網路的企業級開源監控產品。
Open-falcon架構
使用者群:目前有幾十家企業使用者不同程度使用。
優點:
1. 自動發現,支援falcon-agent、snmp、支援使用者主動push、使用者自定義外掛支援
2. 支援每個週期上億次的資料採集、告警判定、歷史資料儲存和查詢
3. 高效的portal、支援策略模板、模板繼承和覆蓋、多種告警方式、支援callback呼叫
4. 單機支撐200萬metric的上報、歸檔、儲存
5. 採用rrdtool的資料歸檔策略,秒級返回上百個metric一年的歷史資料
6. 多維度的資料展示,使用者自定義Screen
7. 通過各種外掛目前支援Linux、Windows、Mysql、Redis、Memache、RabbitMQ和交換機監控。
缺點:由於釋出時間較短,很多基礎的服務監控外掛(如Tomcat、apache等)還不支援,很多功能還在不斷完善中,另外由於缺少專門的支援,雖然有開放社群,但是解決問題的效率相對較低。
商用運維監控系統篇
監控寶
推薦星級:★★★★★
監控寶是雲智慧為使用者提供IT效能監控(IT Performance Monitoring)的SaaS產品,包含網站監控、伺服器監控、中介軟體監控、資料庫監控、應用監控、API監控和頁面效能監控等功能。包含免費版、暢 享版和企業版,目前使用者約40萬,監控寶app也是國內唯一提供移動監控服務的產品。
使用者群:覆蓋電子商務、移動網際網路、廣告傳媒、線上遊戲、教育醫療等行業的幾十萬使用者,小米、陌陌、高德、用友、金山、途牛、聚美優品、陸金所、 中國平安、建行信用卡中心、春雨醫生、暢遊、國家電網、中國電信、滴滴打車、春秋航空、鳳凰網等各行業領先企業和中國網際網路百強企業超過30%在使用監控 寶。
優點:
作為國內最早提供基於SaaS服務的網路監控平臺,監控寶不但為初級使用者提供免費的標準服務,企業使用者還可以按需購買所需的監控、告警資源,最大限度的節省企業運維成本;
監控寶通過遍佈全球的300多個分散式監測節點,對網路進行穩定性和可用性的主動監控和實時分析,支援http(https)、ftp、ping、udp、tcp、smtp、traceroute等多種協議,測量CDN效果及DNS狀態,全網全地域效能趨勢分析。
實時捕捉伺服器深層效能指標,支援Linux/Unix/Windows系統及雲平臺,支援CPU使用率、CPU平均負載、記憶體使用比例、磁碟 IO、磁碟空間使用率、網路流量和系統程序數統計等物理指標及30多種應用服務,雲主機監控端一鍵開啟,無需複雜配置。對於應用服務的監控,監控寶已經支 持常見的應用型別包括:Apache、Lighttpd、Nginx、Tomcat、IIS、Memcache和Redis,儲存層監控支援 Hadoop、MySQL、MongoDB、SQLServer、Oracle的健康狀態及效能監控。
監控寶是國內目前唯一支援API監控的網路監控產品,通過API介面呼叫模擬使用者使用過程,支援對get、post、put、delete、 head、options六種請求方式進行實時監控;支援JSON、XML、Text、Response Status驗證及Postman指令碼匯入。
Docker監控也是監控寶的獨家功能,能夠實時監控Docker容器的CPU、記憶體、網路流量及Swap狀態,讓開發者和運維人員在使用Docker時清晰掌握其資源消耗狀況。
監控寶提供頁面效能管理,基於國際標準制定頁面效能指數,識別載入元素的狀態及正確性,對全網全使用者載入響應時間分析,同時準確定位問題元素及優化建議。
及時有效的告警通知對運維來說至關重要,監控寶可以根據SLA設定告警閾值,第一時間傳送告警通知。監控寶覆蓋最全面的告警通知方式:電子郵件、 簡訊、電話語音、URL回撥通知、App Push等。另外監控寶提供分級告警通知,能夠根據告警事件的不同等級將不同的告警推送給不同的人員,支援企業分層管理!
監控寶目前對其Smart Agent進行了開源,使用者可以根據業務需求定製化開發Agent,同時使用者的資料安全得到保障。
監控寶提供私有化部署解決方案,滿足政企、金融行業專有網路監控的需求。
來自Compuware、CA、IBM等企業IT服務資深專家,超過5年的本土化企業級SaaS服務經驗,以及超過百人的技術服務團隊,為使用者提供最佳的服務保障。
360網站服務監控
推薦星級:★★☆☆☆
360網站服務監控是一款面向廣大站長的網站監控產品,提供免費的網站、伺服器監控。
使用者群:個人站長
優點:
服務免費,支援網站HTTP監控、PING監控、域名DNS監控和伺服器監控
提供網站訪問全景資料和簡單配置資訊
缺點:
只支援簡單的網站和伺服器監控,歷史資料保留15天,且免費監控點數量僅為四個
最後一次產品更新是2014年9月,目前已停止更新和運營支援
阿里雲監控
推薦星級:★★★★☆
阿里雲監控是一款免費網站監控產品,可監控站點和伺服器,並提供多種告警方式:簡訊,旺旺,郵件。
使用者群:阿里雲使用者
優點:
與阿里雲服務捆綁緊密,允許使用者自定義資料監控
阿里雲多IDC間內網資料傳輸,不佔用客戶公網資源
支援對業務資料的通用統計,從各個角度反應服務的執行情況
缺點:
所有服務基於阿里雲,功能單一,擴充套件性差
功能不夠強大,只能滿足基礎監控需求
百度雲觀測
推薦星級:★★☆☆☆
百度雲觀測是百度推出的一款雲服務產品,類似於360雲監控、阿里雲監控,主要是為站長提供免費的一站式網站監測、預警服務,功能覆蓋網站執行狀況、安全和訪問速度等多個方面。
使用者群:個人站長
優點:
對於使用者每日訪問的站點進行安全檢測
國內各大城市雲節點覆蓋,支援CDN、DNS狀態和主機監控
缺點:
需要進行網站認證
監控點少,功能簡單,只能監測網站狀態,不支援伺服器、應用監控。
小蜜蜂網站監測
推薦星級:★☆☆☆☆
小蜜蜂網站監測是一款針對中小企業需求開發的綜合測量網站運營情況線上工具,可以定時監控網站或伺服器器的可用率(Uptime),一旦網站無法連結、或是伺服器發生錯誤,即可傳送告警通知。
使用者群:中小企業網站管理員
優點:
小蜜蜂通過探測節點和Last Mile兩種模式監測網站可用性,支援多種站點監控型別和不同的網路訪問傳輸協議;
提供多樣化監控告警設定,並支援站內實時告警訊息,支援RSS。
缺點:
只支援基本的網站監控,監控點不可選,監控服務不穩定;
網站效能歷史資料不夠詳細,且無法匯出。
隨著新技術的不斷髮展,雲服務已經網際網路企業的必須,但是長期以來會存在傳統物理主機和雲主機、私有云和公有云並存的狀態。此外,網際網路企業的發 展速度非常快,小米、滴滴出行等很多企業都是在短短几年內發展起來的,因此選擇一款合適的雲監控產品,伴隨企業同步成長,是非常必要的。
原文:http://www.oschina.net/news/67525/monitoring-tools