1. 程式人生 > >SCOM的基本概念的理解&警報的處理

SCOM的基本概念的理解&警報的處理

scom警報處理警報

在介紹了基本的SCOM安裝以及管理包的作用以及實現後,感覺缺少一些基本知識概念的介紹,好像地基沒有打穩的感覺,現在就給大家介紹一下基本的概念,以及平時運維工作中遇到這些概念或者警報出現的原理以及基本的處理方法。
常說的四大金剛,即在警報方面的四個主要的概念:
發現(Discover):在SCOM中又叫“對象發現”,他是來自管理包中,導入管理包後,就有這些發現規則,能夠用來發現對象,進行監控。例如:導入Windows管理包,就會有針對Windows系統的一些對象的發現規則,用來監控。總之,發現就是用來發現監控對象的。
規則(Rule):在導入管理包之後,SCOM會自動的加載一些規則到相對應的對象中去。同樣規則也可以自定義,但是要求比較高,慎用。有些情況下,SCOM上沒有性能數據,這可能是規則的問題,比如數據庫中的數據沒有同步,數據阻塞等。
監視器(Monitor):在發現對象之後,有一個監控邏輯,其中就有監視器。警報的來源之一就是監視器,在每一個對象的右鍵,“運行狀況資源管理器”就有監視器的監控信息。(監視器可以自定義,但是自定義的要求比較高,慎用。)也可以在“創作”的“管理包對象”中,看到監視器,裏面有各種監視器。
警報(Alert):就是常見的活動警報(全局的警報信息),以及對象中會出現一些警報,就是一些紅叉的出現。對象中的警報可以在“警報視圖”中。
出現警報的原因:管理服務器會推送相對應的監視器以及規則到對象計算機上,然後在對象計算機上加載監視器及規則。對象計算機,超過了定義的規則或監視器的閾值,則會出現警報。還有一種原因,實在發現以及創建對象的時候也會產生警報。技術分享圖片

管理器跟對象計算機的輪詢:SCOM會有輪詢,時間一般為300秒,或者自定義--在監視器中替代,將輪詢時間間隔調整。正常的情況下,管理服務器會通過5723端口Telnet測試,經過4個心跳包。這是檢測服務的狀況,看看服務狀態是否正常活著。
警報的處理方式有四類:
關閉警報:右鍵---關閉警報。
使用場境:1)實際警報已解決,但未到刷新期,警報仍存在,可以關閉。
2)不具備警報自動解決的警報
3)掛起警報過多,導致警報擁塞
禁用警報:右鍵--替代---禁用監視器,可以選擇針對某個對象或者某類對象,如果禁用了,以後出現問題會不出現警報了,很危險,慎用!(替代屬性中有已啟用中的默認值改成false)
使用場景:1)經過確認後確實不需要警報
2)由於特殊設置產生的警報(比如應用系統特殊國情導致的開發不規範錯誤代碼)
3)需要維護而臨時禁用的警報(建議使用維護模式)
刪除對應對象:右鍵---刪除。這個刪除知識從UI控制臺刪除,如果想要真的刪除,應該先刪除受監控對象上的監控代理然後在刪除警報才徹底。慎用!
1)對象已經下線不需要監控
2)對象出現錯誤,需要重裝操作
解決警報(推薦):根據警報的描述判斷警報的原因,雙擊警報描述,然後在產品知識中還會有解決警報的方法,即可按照此方法進行解決。

SCOM的基本概念的理解&警報的處理