運維監控系統 PIGOSS BSM 為銀行運維監控提供全力保障
從信息系統期理論出發,信息系統大致分為規劃與設計、開發與測試(或購買)、實施、運維管理與持續改進五個階段。而前三個階段從時間角度看,只占整個周期的20%,其余時間基本上是對其進行運行維護。這就決定了IT運維服務在銀行信息化建設和運行中的核心地位,而定量、實時的交易數據、事件和性能指標成為判斷信息系統安全運行狀態的主要依據。
一、IT運維監控指標體系研究的背景和意義
1.業務發展的客觀需要
為了充分發揮運維監控的預警作用,逐步提升各類運維監控指標的覆蓋率和完備率,我們需要建立一套系統、規範、面向業務服務的運維監控指標體系。在管理層面,該指標體系旨在讓企業管理者花更多的時間在決策上,而不是用於了解復雜、繁瑣的IT細節上;從服務定義、服務水平管理、服務監 控、服務診斷的角度,讓管理者一目了然;既滿足企業要求的服務水平,確保最佳的業務系統表現,又輔助整個企業的業務運營與IT決策。
在技術層面,該體系既可以豐富開發新業務系統時的非業務功能需求,使開發團隊在系統設計階段,就把以後運維階段需要關註的監控指標內嵌到應用系統中,起到 “未雨綢繆”的作用;又可以在老系統改造過程中增加指標的監控功能,起到“亡羊補牢”的效果;同時,該指標體系對於運維團隊全面、有效地部署和配置各類運維工具也起到“有的放矢”的指導作用。
-
監管導向
根據銀監會《商業銀行數據中心監管指引》第二十六條第八款“應集中監控重要信息系統和通信網絡運行狀態。采用運維監控工具,實時監控重要信息系統和通信網絡的運行狀況,通過監測、采集、分析和調優,提升生產系統運行的可靠性、穩定性和可用性。監控記錄應滿足故障定位、診斷及事後審計等要求。”為了滿足上述 要求,迫切需要建立一套切實可行的運維監控指標體系來指導監控和分析工作,促進運維管理工作的系統化和規範化,降低運維風險。
二、IT運維監控指標體系的研究
在系統資源層面可以分為數據庫類、中間件、操作系統類和存儲四大類。其中數據庫類的指標可以分別反映服務器的運行狀態、實例的運行狀態、會話數、鎖資源和 監聽器的運行狀態。中間件類根據不同的使用特性,如業務中間件、消息中間件等,細分為WAS、Weblogic和MQ三種。操作系統類可以按照使用環境分 為Windows、Linux和Unix三種,客觀反映各種主流操作系統的運行狀態。存儲系統類可分為光纖交換機、光纖交換機端口、存儲系統、XP存儲系 統和光纖鏈路,客觀反映存儲系統端到端的運行狀況。
在網絡層面按照管理特性可分為網絡或安全設備的處理器、內存、風扇、溫度、電源、系統、設備端口、運行協議等不同緯度客觀反映網絡環境的運行情況和運行質量。
在機房基礎設施層面可以按照管理設備種類分為電量儀、UPS、空調等,反映機房基礎設施的使用情況和運行質量。
上述領域的監控指標通過標準化的數據采集接口收集整理、分類匯總和關聯分析,進行IT統一運維監控管理,實現了事件管理、性能管理、告警管理、故障分析等風險處置功能。同時還能提高運維管理工作(跑批、備份、版本、維保、值班、資產等)的日常監督和及時提醒功能。
三、IT運維監控指標體系的構建方法
為了促進監控指標有效落地,充分發揮監控預警作用,需開發和運維團隊積極配合,圍繞逐步優化和完善指標體系開展工作,從指標梳理、指標設置、指標權重計算、指標評估、體系建立五個階段,形成持續優化的閉環工作過程。
1.指標的梳理
各開發和運維團隊需要根據業務特點和系統情況,結合實際運維工作需要,采用專家經驗法,以調查問卷的方式選取相應的監控指標形成特定的監控指標集
針對性能類指標,指標閾值是衡量應用系統性能容量是否正常、是否需要優化或擴容的量化依據。可以將閾值分為基準閾值、關註閾值和告警閾值三種。
基準閾值是指信息系統正常運行狀態下的標準值,即該系統在業務時段,性能容量指標正常運行時的數值。關註閾值是指分析評估信息系統是否需要優化的臨界值, 其數值是在基準閾值的基礎上上浮一定比例,具體比例應根據信息系統的特點而定。告警閾值是指信息系統要進行擴容的臨界值,僅需對關鍵指標設定該類閾值。
理想情況下,閾值的設置應遵循“基準閾值<關註閾值<告警閾值”的原則;閾值的初始設置可依據系統的運行特性,結合專家經驗而定,在實際使用過程中,可根據指標監控情況進行調整。
2.指標的設置
在指標梳理的基礎上,各運維和開發團隊應對監控指標集中每個指標進行科學的設置,設置內容包含指標采集方式、采集頻率(采樣間隔)、指標數據類型、觸發告 警條件、告警級別、告警描述、指標數據輸出接口類型和字段格式等對於關鍵指標應明確標識,例如在指標名稱前加*號標識。
對於關鍵性能類指標還應明確其閾值的設置,
3.指標權重的計算
在設計指標權重時,各使用部門可以使用專業的層次分析法進行定量計算,也可以使用通常的專家經驗法進行定性劃分。層次分析法的好處是可以解決因子分析法有時無法采集數據的缺陷,且通過指標間的兩兩比較,在確定多指標的權重時,較他方法而言更可靠和準確。而專家經驗法在評判權重時相對簡單,但缺點是因指標太多,無法綜合判斷導致的指標權重不準確,需要後期持續優化。
4.指標的評估
實際運維工作中,在充分發揮各類監控指標用途、又不影響正常的業務生產活動時,為了推動運維管理質量的提升,需要遵循SMART原則對指標進行評估。即:S代表具體(Specific),是指監控指標要有針對性,不能籠統;M代表可度量(Measurable),是指監控指標是可量化的,驗證指標的數 據或信息是可獲取到的;A代表可實現(Attainable),是指監控指標可以通過現有技術手段或工具采集到的;R代表相關性(Relevant),是 指監控指標與其他指標存在邏輯上的相關性;T代表時限性(Tine_bound).是指監控指標的獲取要有時間周期的限制。
5.指標體系的確定。經過上述過程,明確了哪些指標需要監控,指標之間的層次和依賴關系,重要程度等信息。通過這些信息,就可以清晰地構建一個層次化的指標體系
四、小結
建立IT運維監控指標體系是提升運維管理、ITIL落地實施中最為基礎,也是最重要的環節。今後我們對於系統運行健康狀況的判斷,不僅可以像中醫一樣的“望、聞、問、切”,還可以像西醫一樣的“×××、化驗、做CT、專家會診、打疫苗和預防宣傳”。從而讓“定量分析”與“定性判斷”相結合,“運維經驗” 與“實時數據”相結合,“前期開發”與“後期運維”相結合,打通系統開發和運維管理工作界面,使IT統一運維監控管理不僅為防範運維風險提供及時預警和綜 合分析功能,同時也為優化應用系統性能提供了詳實和科學的參考依據。
運維監控系統 PIGOSS BSM 為銀行運維監控提供全力保障