open-falcon plus——配置告警
阿新 • • 發佈:2018-11-04
1. Nodata配置
使用Nodata,需要進行兩個配置: Nodata配置 和 策略配置。下面,我們以一個例子,講述如何使用Nodata提供的服務。
Nodata個人理解就是伺服器傳送中斷,比如相關指標採集不到,agent.alive指標是伺服器與客戶端通訊是否正常指標,不正常說明要麼是agent掛了,網路中斷,系統異常了。
使用者需求
當機器分組cop.xiaomi_owt.inf_pdl.falcon
下的所有機器,其採集指標 agent.alive
上報中斷時,通知使用者。
Nodata配置
進入Nodata配置主頁,可以看到Nodata配置列表
點選右上角的新增按鈕,新增nodata配置。
進行完上述配置後,分組cop.xiaomi_owt.inf_pdl.falcon
下的所有機器,其採集項 agent.alive
上報中斷後,nodata服務就會補發一個取值為 -1.0
、agent.alive的監控資料給監控系統。
策略配置
配置了Nodata後,如果有資料上報中斷的情況,Nodata配置中的預設值就會被上報。我們可以針對這個預設值,設定報警;只要收到了預設值,就認為發生了資料上報的中斷(如果你設定的預設值,可能與正常上報的資料相等,那麼請修改你的Nodata配置、使預設值有別於正常值)。將此策略,繫結到分組cop.xiaomi_owt.inf_pdl.falcon
注意事項
- 配置名稱name,要全域性唯一。這是為了方便Nodata配置的管理。
- 監控例項endpoint, 可以是機器分組、機器名或者其他 這三種類型,只能選擇其中的一種。同一型別,支援多個記錄,但建議不超過5個,多條記錄換行分割、每行一條記錄。選擇機器分組時,系統會幫忙展開成具體機器名,支援動態生效。監控實體不是機器名時,只能選擇“其他”型別。
- 監控指標metric。可以在首頁的counters中檢視相關指標
- 資料標籤tags,多個tag要用逗號隔開。必須填寫完整的tags串,因為nodata會按照此tags串,去完全匹配、篩選監控數指標項。
- 資料型別type,只支援原始值型別GAUGE。因為,nodata只應該監控 "特徵指標"(如agent.alive),"特徵指標"都是GAUGE型別的。
- 採集週期step,單位是秒。必須填寫 完整&真實step。該欄位不完整 或者 不真實,將會導致nodata監控的誤報、漏報。
- 補發值default,必須有別於上報的真實資料。比如,
cpu.idle
的取值範圍是[0,100],那麼它的nodata預設取值 只能取小於0或者大於100的值。否則,會發生誤報、漏報。