1. 程式人生 > >靈犀:企業監控為什麼光有Zabbix是不夠的?

靈犀:企業監控為什麼光有Zabbix是不夠的?

作者簡介

魏偉

人稱魏總管,曾任職百度多年,據稱為最牛硬體工程師、伺服器整體研發當家人,曾一手推出全球首款arm伺服器,震驚業界。

其操刀打造的智慧IDC專案,是大資料在運維領域的首次應用,並且成功部署於幾十萬臺機群,帶來巨大收益。後就職金山雲負責整體運維,現為靈犀聯合創始人。

正文

Zabbix是大家喜聞樂見的監控工具,可很多朋友也飽受告警設定及報警風暴之苦。我曾經有過幾十萬臺伺服器的運維經驗,在這些方面也有較多經驗,本文側重分析Zabbix告警的相關問題,並給出一種快速解決方案:

  1. 郵件報警配置複雜,多了沒人看;
  2. 簡訊報警流程複雜,簡訊容易被延遲或漏發;
  3. 電話報警配置太麻煩,需要二次開發;
  4. 報警風暴令人苦惱不堪。

1、什麼是Zabbix?

Zabbix是一個開源、高度整合的監控解決方案。以圖形化展示和操作介面,提供了針對各種IT系統的系統引數、網路引數的分散式監控及告警,讓系統管理員能夠快速感知、定位、解決IT系統問題。

雖然只支援普通的報警方式。

2、為什麼需要Zabbix?

首先,業務規模稍微大一些的公司,都需要監控。

當公司從一個幾人、十幾人的小公司,發展成一個幾百上千人規模的中、大型公司,公司的業務規模也處於不斷增長,伺服器從幾臺發展到幾百幾千臺。這個時候,IT系統出現故障的機率就會大大的增大,影響程度也更加嚴重。

可能只是幾分鐘的宕機,就會給公司帶來幾十萬、幾百萬的損失。

如果這個時候,領導問“為何某個服務不可用、為何系統會出現故障”,而你卻不能及時確定故障的根源並提供解決方案時,工作一定會受到領導的質疑和挑戰。

而監控系統,就是為了解決這些問題。

它能夠讓運維人員快速知曉系統的執行狀況,並在出現問題時甚至在出現問題前,及時感知到問題的存在,通過提前處理或實施預案,解決或避免問題的出現,並且儘快進行處理。

其次,無論是在安裝還是在使用上,Zabbix都是一款遠勝其他同類產品的監控工具:

  1. 安裝與配置非常簡單,學習成本低;
  2. 支援多語言(包括中文);
  3. 免費開源,維護志願者眾多;
  4. 具有node、proxy兩種模式,非常適合構建分散式監控系統;
  5. 企業實現自動化運維的必然之選:能自動發現伺服器和網路裝置、自動註冊主機、自動新增模板及分組;
  6. 支援多種監控方式,適應複雜企業IT環境。

3、 Zabbix 真的那麼受關注?

根據“百度指數”中Zabbix、Falcon和Nagios最近半年的指數趨勢(下圖),Zabbix的受關注程度,一直處於非常穩定並且長期持續的狀態。

Zabbix

4、 Zabbix告警配置很煩人?

隨機選擇今年1月份的一週(1.04-1.10),如下圖。

企業監控

從這個資料來看,確實,Zabbix報警依然困擾著大家(當然,Zabbix相關中文文件的翻譯需求,也是類似)。

而這些,也正是企業選用Zabbix作為監控工具時,可能遇到的問題:

Zabbix的告警配置相當複雜,並且沒有詳盡的中文翻譯資料,以幫助解決這個問題。

5、如何解決Zabbix告警配置的問題?

Zabbix監控再好,也必須能在最快的時間將故障資訊推送給對應的人,才能真正將監控的價值最大化。

但可惜的是,Zabbix的報警機制過於複雜,難以與公司的實際場景結合,達成“優化整個團隊的故障監控和處理效率”的目的。

1)告警通道配置太繁瑣

郵件報警:如需配置郵件報警,就得在Zabbix裡配置郵件呼叫介面。並且Zabbix郵件報警經常發生延遲(Zabbix自身延遲+郵件服務商延遲),更悲催的是,報警郵件往往沒人看。

僅憑這一點,想要“解放運維人員、不再24小時盯著監控大螢幕”,就已基本夢碎。

簡訊報警:如需配置簡訊報警,就需要向簡訊服務商購買簡訊服務。

  • 簽訂合同、定期購買簡訊數量、設定簡訊模板、在Zabbix配置簡訊呼叫介面;
  • 經常從簡訊服務商那邊索取回執報告並作對比,以避免被“糊弄”;
  • 需配置多個簡訊服務商,以避免某個簡訊服務商簡訊延遲或漏發。

電話報警:電話報警,是為了保證在深夜,把運維人員弄醒,及時解決緊急故障。比起簡訊,電話的提醒效果肯定更好。但電話報警更加繁瑣,而且往往需要二次開發。

配置簡訊的痛還沒消,你真的還要再找一次虐?

微信報警:配置微信報警,需要申請開通微信的相關服務,然後排期進行鍼對性開發。

  • 首先,微信的訂閱號、服務號、企業號,其訊息推送限制、訊息內容限制、認證前後的人數限制都是不同的 ,真的能分的那麼清楚?
  • 其次,如果發生報警風暴,確定你的小心臟接受得了微信裡突然多出來的成百上千條報警提示?

2)告警風暴的痛,Zabbix不夠懂!

Zabbix的報警配置很複雜,並且沒有中文文件可供參考;Zabbix的報警合併機制不夠高效,不符合實際運維場景。

可是,大部分運維人員只能硬著頭皮上,配一個User組、一個Trigger就了事。

無論是郵件報警、簡訊報警或微信報警,都會存在告警風暴的問題:如果發現類似斷網等大面積故障,而且沒有告警保護和收斂機制的話。

郵件被充爆、手機收件箱被報警簡訊爆滿、手機連續響1個小時。

批量刪除?那也要拖滾動條拖個幾十秒啊!這種痛,複雜的Zabbix,真的不夠懂。

其實,大家的要求很簡單:只是想要一個足夠友好、簡單易懂、支援自定義又有預設設定的人性化報警機制。

3)只想團隊高效協作,別老是全體出動!

可否實現一個報警升級機制?而不是一旦產生報警,立即全員通知。我們真的沒有那麼閒啊:

  • 簡訊和電話,真的也是要付費的。
  • 普通、通知級別的報警,讓剛來的運維小白看看可否?
  • 嚴重級別和災難級別的報警,先發給一級,一級響應不及再升級,而不是直接“捅給”老大好不?

靈犀,負責解決您的這些問題!

靈犀(linkedsee)旨在成為客戶一站式混合IT運營管理專家,核心成員來自原百度系統部。創始人@朱品燕同學曾致力於百度多年,其離職網文《IT狗,離開百度,你還是什麼?》曾一度引起轟動。

靈犀,負責解決您的這些問題!

  • 快速高效接入:10分鐘內完成接入,瞬間擁有四大通道、多個主備服務商。
  • 消滅告警風暴:預設恢復自動合併、相同報警自動合併,支援自定義合併。
  • 專人客服值守:普通級別專人輪流值班,嚴重級別輪循升級通知、處理。

不僅僅這樣,靈犀還可:

  • 完美對接工單系統,讓Zabbix告警不再石沉大海、無人跟進。
  • 支援Open-falcon及其他自定義監控。

想看看靈犀的真容?

靈活的告警觸發策略設定。

Zabbix

豐富的事件處理及統計功能。

企業監控

方便的監控值班功能。

Zabbix

是不是僅僅看到如此美觀大方的網站介面,就已有那麼一點點心動?

是的,您現在可以免費使用!

本文由靈犀(IT運營專家)供稿,您可以免費使用靈犀。掃一掃如下二維碼即可直接註冊享受。

靈犀