告警系統郵件引擎, 執行告警系統
阿新 • • 發佈:2018-12-31
告警系統郵件引擎
- 因為之前做zabbix的時候,做過mail.py的指令碼,在這裡,直接呼叫進行使用就可以。
- 但是告警郵件引擎核心,conf主配置檔案呼叫到的都是mail.sh ,所以這裡需要定義呼叫mail.py的sh指令碼
- mail.sh目的是做告警收斂,如果不想做告警收斂,在發現問題的時候直接告警就好,但是,可能會發生1分鐘前發現問題,1分鐘戶問題解決,這樣就會變成誤報,這樣會很麻煩
- 收斂的目的就是1分鐘前發現問題,然後到10分鐘後,服務還沒有恢復,就會告訴管理人員10分鐘了服務還未恢復
#!/bin/bahs log=$1 t_s=`date +%s` t_s2=`date -d "2 hours ago" +%s` //定義2個小時的時間戳 #日誌不存在就建立日誌 if [ ! -f /tmp/$log ] then echo $t_s2 > /tmp/$log fi #下面這段,等同於一個計時器 t_s2=`tail -1 /tmp/$log|awk '{print $1}'` echo $t_s>>/tmp/$log v=$[$t_s-$t_s2] //時間戳對比 echo $v #當故障存在3600秒,就會進行告警 if [ $v -gt 3600 ] then ./mail.py $1 $2 $3 echo "0" > /tmp/$log.txt //等同於計數器 else if [ ! -f /tmp/$log.txt ] then echo "0" > /tmp/$log.txt fi nu=`cat /tmp/$log.txt` nu2=$[$nu+1] echo $nu2>/tmp/$log.txt if [ $nu2 -gt 10 ] then ./mail.py $1 "trouble continue 10 min $2" "$3" echo "0" > /tmp/$log.txt //郵件告警結束以後,重新開始計數 fi fi
- 該指令碼運用於,間隔3600 故障;10分鐘內故障;間歇性故障;
- 核心判斷:計時、計數
執行告警系統
- 要執行告警系統,肯定要是每分鐘,執行一次
crontab -e
* * * * * cd /usr/local/sbin/mon/bin ; bahs main.sh
- 監控傳送郵件的部分,儘量少用空格,因為mail.py傳送郵件是以 空格來定義三個引數的