靈犀:企業監控為什麼光有Zabbix是不夠的?
作者簡介
魏偉
人稱魏總管,曾任職百度多年,據稱為最牛硬體工程師、伺服器整體研發當家人,曾一手推出全球首款arm伺服器,震驚業界。
其操刀打造的智慧IDC專案,是大資料在運維領域的首次應用,並且成功部署於幾十萬臺機群,帶來巨大收益。後就職金山雲負責整體運維,現為靈犀聯合創始人。
正文
Zabbix是大家喜聞樂見的監控工具,可很多朋友也飽受告警設定及報警風暴之苦。我曾經有過幾十萬臺伺服器的運維經驗,在這些方面也有較多經驗,本文側重分析Zabbix告警的相關問題,並給出一種快速解決方案:
- 郵件報警配置複雜,多了沒人看;
- 簡訊報警流程複雜,簡訊容易被延遲或漏發;
- 電話報警配置太麻煩,需要二次開發;
- 報警風暴令人苦惱不堪。
1、什麼是Zabbix?
Zabbix是一個開源、高度整合的監控解決方案。以圖形化展示和操作介面,提供了針對各種IT系統的系統引數、網路引數的分散式監控及告警,讓系統管理員能夠快速感知、定位、解決IT系統問題。
雖然只支援普通的報警方式。
2、為什麼需要Zabbix?
首先,業務規模稍微大一些的公司,都需要監控。
當公司從一個幾人、十幾人的小公司,發展成一個幾百上千人規模的中、大型公司,公司的業務規模也處於不斷增長,伺服器從幾臺發展到幾百幾千臺。這個時候,IT系統出現故障的機率就會大大的增大,影響程度也更加嚴重。
可能只是幾分鐘的宕機,就會給公司帶來幾十萬、幾百萬的損失。
如果這個時候,領導問“為何某個服務不可用、為何系統會出現故障”,而你卻不能及時確定故障的根源並提供解決方案時,工作一定會受到領導的質疑和挑戰。
而監控系統,就是為了解決這些問題。
它能夠讓運維人員快速知曉系統的執行狀況,並在出現問題時甚至在出現問題前,及時感知到問題的存在,通過提前處理或實施預案,解決或避免問題的出現,並且儘快進行處理。
其次,無論是在安裝還是在使用上,Zabbix都是一款遠勝其他同類產品的監控工具:
- 安裝與配置非常簡單,學習成本低;
- 支援多語言(包括中文);
- 免費開源,維護志願者眾多;
- 具有node、proxy兩種模式,非常適合構建分散式監控系統;
- 企業實現自動化運維的必然之選:能自動發現伺服器和網路裝置、自動註冊主機、自動新增模板及分組;
- 支援多種監控方式,適應複雜企業IT環境。
3、 Zabbix 真的那麼受關注?
根據“百度指數”中Zabbix、Falcon和Nagios最近半年的指數趨勢(下圖),Zabbix的受關注程度,一直處於非常穩定並且長期持續的狀態。
4、 Zabbix告警配置很煩人?
隨機選擇今年1月份的一週(1.04-1.10),如下圖。
從這個資料來看,確實,Zabbix報警依然困擾著大家(當然,Zabbix相關中文文件的翻譯需求,也是類似)。
而這些,也正是企業選用Zabbix作為監控工具時,可能遇到的問題:
Zabbix的告警配置相當複雜,並且沒有詳盡的中文翻譯資料,以幫助解決這個問題。
5、如何解決Zabbix告警配置的問題?
Zabbix監控再好,也必須能在最快的時間將故障資訊推送給對應的人,才能真正將監控的價值最大化。
但可惜的是,Zabbix的報警機制過於複雜,難以與公司的實際場景結合,達成“優化整個團隊的故障監控和處理效率”的目的。
1)告警通道配置太繁瑣
郵件報警:如需配置郵件報警,就得在Zabbix裡配置郵件呼叫介面。並且Zabbix郵件報警經常發生延遲(Zabbix自身延遲+郵件服務商延遲),更悲催的是,報警郵件往往沒人看。
僅憑這一點,想要“解放運維人員、不再24小時盯著監控大螢幕”,就已基本夢碎。
簡訊報警:如需配置簡訊報警,就需要向簡訊服務商購買簡訊服務。
- 簽訂合同、定期購買簡訊數量、設定簡訊模板、在Zabbix配置簡訊呼叫介面;
- 經常從簡訊服務商那邊索取回執報告並作對比,以避免被“糊弄”;
- 需配置多個簡訊服務商,以避免某個簡訊服務商簡訊延遲或漏發。
電話報警:電話報警,是為了保證在深夜,把運維人員弄醒,及時解決緊急故障。比起簡訊,電話的提醒效果肯定更好。但電話報警更加繁瑣,而且往往需要二次開發。
配置簡訊的痛還沒消,你真的還要再找一次虐?
微信報警:配置微信報警,需要申請開通微信的相關服務,然後排期進行鍼對性開發。
- 首先,微信的訂閱號、服務號、企業號,其訊息推送限制、訊息內容限制、認證前後的人數限制都是不同的 ,真的能分的那麼清楚?
- 其次,如果發生報警風暴,確定你的小心臟接受得了微信裡突然多出來的成百上千條報警提示?
2)告警風暴的痛,Zabbix不夠懂!
Zabbix的報警配置很複雜,並且沒有中文文件可供參考;Zabbix的報警合併機制不夠高效,不符合實際運維場景。
可是,大部分運維人員只能硬著頭皮上,配一個User組、一個Trigger就了事。
無論是郵件報警、簡訊報警或微信報警,都會存在告警風暴的問題:如果發現類似斷網等大面積故障,而且沒有告警保護和收斂機制的話。
郵件被充爆、手機收件箱被報警簡訊爆滿、手機連續響1個小時。
批量刪除?那也要拖滾動條拖個幾十秒啊!這種痛,複雜的Zabbix,真的不夠懂。
其實,大家的要求很簡單:只是想要一個足夠友好、簡單易懂、支援自定義又有預設設定的人性化報警機制。
3)只想團隊高效協作,別老是全體出動!
可否實現一個報警升級機制?而不是一旦產生報警,立即全員通知。我們真的沒有那麼閒啊:
- 簡訊和電話,真的也是要付費的。
- 普通、通知級別的報警,讓剛來的運維小白看看可否?
- 嚴重級別和災難級別的報警,先發給一級,一級響應不及再升級,而不是直接“捅給”老大好不?
靈犀,負責解決您的這些問題!
靈犀(linkedsee)旨在成為客戶一站式混合IT運營管理專家,核心成員來自原百度系統部。創始人@朱品燕同學曾致力於百度多年,其離職網文《IT狗,離開百度,你還是什麼?》曾一度引起轟動。
靈犀,負責解決您的這些問題!
- 快速高效接入:10分鐘內完成接入,瞬間擁有四大通道、多個主備服務商。
- 消滅告警風暴:預設恢復自動合併、相同報警自動合併,支援自定義合併。
- 專人客服值守:普通級別專人輪流值班,嚴重級別輪循升級通知、處理。
不僅僅這樣,靈犀還可:
- 完美對接工單系統,讓Zabbix告警不再石沉大海、無人跟進。
- 支援Open-falcon及其他自定義監控。
想看看靈犀的真容?
靈活的告警觸發策略設定。
豐富的事件處理及統計功能。
方便的監控值班功能。
是不是僅僅看到如此美觀大方的網站介面,就已有那麼一點點心動?
是的,您現在可以免費使用!
本文由靈犀(IT運營專家)供稿,您可以免費使用靈犀。掃一掃如下二維碼即可直接註冊享受。