機房環境監控的意義是什麽?
根據ITIL的定義,所謂的“可用性”指的是:“一個配置項或IT服務根據需要履行協定職能的能力。可用性取決於可靠性、可維護性、可服務用性、性能和安全。可用性通常以百分比計算。這種計算通常基於協定服務時間和宕機時間”。高可用性IT管理是指:是指通過對IT架構及運維管理、基礎設施及管理、災備建設及運維、安全及管理等高可用性關鍵要素的改進與優化,提升IT系統的可用性,從而更好地保障業務持續運營和創新的過程。
在衡量可用性方面,具體又分為MTTR/MTBF/MTBSI等三個不同的指標(如下圖)。從下圖可見,無論是MTBSI還是MTTR,均有一個重要的組成部分——“Detecttime(
二、監控管理對數據中心運營的作用。
1.事件管理與可用性管理
隨著技術的發展,有許多第三方監控工具開始出現,這些工具可以實現跨設備、跨平臺、跨系統的集中數據采集,同時也能針對不同的監控對象設置相應的閥值,最終還可以實現統一的展現與告警。這些工具的出現,使得IT管理人員可以以一種更快速、更準確的方式發現被管理的組件所出現的故障。從而為故障的修復,以及服務的恢復爭取了寶貴的時間,提升了整個基礎架構的可用性。
2.容量管理
監控管理還會利用監控工具的性能采集功能,對一些關鍵應用的關鍵性能點進行監控,取得這些關鍵點的性能數據,用來評估IT
3.安全管理與符合性管理
監控管理可以利用目前的一些安全監控工具,去檢查組件的安全情況與運行中對合規要求的符合情況。如GDS目前的一些合作夥伴,其利用一些安全軟件,對防火墻、防病毒與入侵檢查設備進行實時日誌采集與安全分析,同時比對公司的安全策略或一些安全標準,幫助數據中心管理人員對目前數據中心運營中安全問題進行快速定位與問題分析。
三、監控管理面臨的挑戰
1.采集層的集中化
從目前市場上的工具來看,還沒有哪個監控工具可以支持業界全線的IT產品,尤其是存儲與光傳輸設備這一塊。另外,不同客戶對監控的深度也要求迥異,有些客戶可能僅需要監控到網絡、設備與系統層面,有些則需要對其數據庫、中間件甚至是應用進行監控,這也為監控采集層的集中帶來不少的難度。最後,不同客戶對成本與安全要求的不同,進一步提升了監控工具在采集層集中的難度。
2.處理層的集中化
目前許多設備的監控往往只能反映出某一臺設備的可用性,卻不能完整的展現出整體的應用結構以及互相之間的影響關系,一旦一臺核心的交換機發生故障後,管理員會發現,突然之間,滿世界都是各種各樣的告警,頭昏眼花,疲於奔命,卻不知道到底該如何解決。因此,如何能進行事件關聯,協助管理員能從各個孤立的事件中迅速定位,這是對監控管理的另一項挑戰。
3.展現層的集中化
隨著監控內容的增加,目前數據中心運營人員面臨的另外一個問題是如何能讓監控室的人員可以在眾多監控終端中迅速地發現系統報警,畢竟無法要求負責監控的人員7X24小時地盯著監控屏幕。所以監控終端的報警方式集中化,甚至是監控工具展現層的集中化就成為了監控管理目前所面臨的一項挑戰。
4.監控工具與管理的集中
監控管理的目的並不是監控工具本身,而是通過人工或技術的手段可以及時發現基礎設施與基礎架構上的問題,並按照既定的要求,將發現的問題按照既定管理流程與工具,調動相應的技術、管理人員介入,最終有效地解決數據中心中可能出現的事件、容量與可用性等問題。因此,如何讓數據中心工作人員清楚在監控工具中報出問題後,應如何執行後續管理流程,避免錯報、漏報,成為監控管理的一項重要挑戰。
四、監控管理發展的趨勢
1.業務監控
數據中心提供的是信息服務,也可以說是業務服務,獨立的對一臺設備進行監控已經不能滿足未來的需求。對於管理人員來說,更關心的是數據中心提供的一個業務、一個服務是否能夠正常的運行,因此,未來的監控解決方案,需要更多的從業務及服務的層面出發,將獨立的物理設備,與業務緊密關聯,形成業務設備視圖,每個設備的可用性,都能夠反映到業務的可用性上。
2.虛擬化雲監控
虛擬化是未來數據中心的趨勢,但監控工具很難區分其監控的服務器是一臺物理機,還是一臺虛擬機,也不可能知道硬件系統會對服務器可用性存在潛在影響,而虛擬化平臺的可用性直接影響到運行在其之上的虛擬服務器的可用性。監控軟件處理的應該是主服務器硬件出現的問題,但是如果主服務器處於危險之中,那麽任何在主機上運行的虛擬機也面臨同樣的問題,因此,虛擬化雲環境的高可用性方案也會是未來的趨勢之一。
3.影響分析模型
業務監控及虛擬化環境的基礎在於不同的設備間能夠建立清晰的管理,形成設備與設備的關系網,這就需要建立CMDB(配置管理數據庫),它清晰的描述了每一臺設備的信息屬性,以及設備之間的關系。通過建立CMDB信息庫,形成業務的影響模型,例如,以下是對一個在線交易系統進行影響建模:
在這個交易系統的影響模型中,例如“存儲”發生故障,直接反應出的是服務不可用,同時“在線交易系統”、“數據庫服務器”、“在線交易系統”皆為不可用狀態,根據被依賴關系進行分析,可以很直接的定位到故障原因,從而避免了逐個系統的進行故障分析。
機房環境監控的意義是什麽?