1. 程式人生 > >針對惠普伺服器SNMP採集頻繁,導致服務停止的解決方案

針對惠普伺服器SNMP採集頻繁,導致服務停止的解決方案

運維軟體:zabbix
採集方式:snmp
採集裝置:惠普-DL380_Gen9-伺服器
採集週期:根據指標要求頻率有5分鐘到1天
主要命令:reset /map1

樂維服務中發現,snmp採集惠普伺服器一段時間後,zabbix提示連線失敗,重啟ilo後又可以重新採集,我們可以利用這一點做一個自動重啟指令碼,保證採集正常。
實現思路:zabbix檢查自定時間內沒有資料->觸發告警指令碼->告警指令碼登入裝置執行 reset /map1

1.我們要模板里加一個多久沒有采集到資料的觸發器如:
 

2.增加報警媒介。
管理->報警媒介型別->建立報警媒介型別。

 

指令碼的操作是根據傳過來的引數到資料庫是找出此裝置管理口IP、帳號、密碼。

主要sql:SELECT i.ip,h.ipmi_username,h.ipmi_password from `hosts` as h LEFT JOIN interface as i on i.hostid = h.hostid where h.host="'.$hostName.'"  and  i.port= 161。

然後用ssh連線到該裝置,執行reset /map1 就可以重啟該ilo了。

3.新增動作
配置->動作->建立動作
 


到此重啟裝置ilo口完成。

面對snmp頻繁採集導致snmp連線失敗,這也是一個解決方案。


3.png




轉自

惠普伺服器SNMP採集頻繁導致服務停止解決方案

(出處: 樂維)