開啟數據中心主機運維的上帝視角
常常有這麽一句話在激勵每一位運維人員,“不以故障多為恥,而以恢復快為榮。”運維人員就是要快速定位問題,分析問題,排除故障,快速恢復來保障生產業務不受中斷。然而,現代大型數據中心,運維人員要管理的系統節點比以前繁多,為了掌控數據中心的實時運行情況與定位問題,需要花的時間成本已經長得無法接受。
極好的可視化手段,能夠讓運維人員在紛亂的監控資源群中快速定位故障。我們用以下幾點來了解這些功能。
一、全面觀察,實時監控
我們抽象的把每一個監控的主機都當成一個圓圈,有多少監控的主機,就出現多少個圈。給每一個圈圈設定一種顏色,我們就很容易區分綠色、黃色、紅色。我們把綠色歸為健康色,黃色歸為警告色,紅色歸為嚴重不健康色。這樣就能直觀的觀察到每一個設備的健康狀況,比單純的去看數字更加直觀和有趣。下圖是優雲monitor對一批監控設備,以cpu使用率的維度,實時觀測到的結果示意圖。可以一目了然的看出大部份主機CPU使用率是正常的,而不正常的主機則非常突出,我們可以馬上定位。
二、多種維度,上帝視角
作為高效敏捷的運維人員針對問題環境需要快速的排除障礙。每個主機設備在安裝代理的時候,我們都會給它設定一個標簽,用來標記這臺設備的身份。比如一批設備都是用於A業務,給每個主機設備上的代理打上一個“業務:機器1”類似這種{key:value}的標簽,我們在排除障礙的時候,可以根據不同的標簽來分組定位分析問題。
上圖我們通過對具有 “數據中心” 同時又具有“業務系統” 標簽的設備進行分組來查看問題。觀測到某個業務CPU使用率存在一個高負荷的狀態,這個時候我們用鼠標滑動到圈圈上面,看到它的一個主機名稱,IP,CPU使用率具體的一個數值。對於運維人員來說,這個就很容易進行針對性的解決問題。運維人員靠標記設備的方式,可以組合出多維視角來觀測你的設備在不同的場景下整體的運行情況。
我們從系統的瓶頸分析,來觀察我們業務系統的一個CPU使用率的一個維度視角。對於瓶頸的分析有很多的視角,尤其是對於應用層級的監控,比如oracle,mysql,tomcat,zk等等指標性能狀況的瓶頸分析。如何來實現這個各種指標的性能分析呢?
三、海量指標,隨需調用
采集了大量的指標數據,包括主機上安裝的各類應用。我們可以隨時過濾顯示包含某類指標的節點,並用這個指標來渲染主機顯示顏色。例如cassandra的應用,運維人員就可以根據cassandra的指標維度進行實時監控主機的狀態。
之前在看TED的一個演講,其中講到了這麽一句話:“長期與短期目標,把一個長期目標分成不同小的階段和不同的任務種類,每完成一個階段和任務獲得獎勵,才能堅持下去。”
運維的長期目標是了更好的保障服務環境的正常運行,過程中需要不斷的從各個小的方面逐個突破。借助優雲Monitor的三個特點,全面觀察、實時監控,多種維度、深入核心,再加上海量指標作為基礎保障,對資源全方位的瓶頸分析、定位,在每一個小目標過程中,都是不可或缺的力量來源。
本文出自 “優雲雙態運維” 博客,請務必保留此出處http://uyun2017.blog.51cto.com/12912719/1927597
開啟數據中心主機運維的上帝視角