記一次Zabbix延時問題
阿新 • • 發佈:2018-02-02
什麽 text 無法連接到 img hostname lis col 9.png ive zabbix server隊列延時
問題:查看隊列數,發現隊列延時一致高於某個值,於是來查查是什麽問題導致。
1. 查看隊列延時詳細信息
我們可以看到延時都對應某個監控項。此時已某主機查看監控數據,以10.70.242.201為例。
2. 查看監控數據
我們可以看到延時的數據自從早上八點就沒有更新了。
3. 查看特定item的圖形
可以看出數據的不連續,而這種情況只出現在某些固定的item上。可也粗略推測是此數據的某些特征導致延時,
4. 查看延時item的配置
我們發現延時嚴重的item多半主動檢測
5. 查看主機agent的配置文件
查看是否開啟了主動檢測ServerActive指令是否開啟?查看開啟了。
6. 查看日誌文件
agent日誌文件
1592:20170914:115210.600 active check data upload to [192.168.96.115:10051] started to fail ([connect] cannot connect to [[192.168.96.115]:10051]: (null)) 1592:20170914:115351.720 active check configuration update from [192.168.96.115:10051] started to fail (cannot connect to [[192.168.96.115]:10051]: (null))
我們可以看到agent端上傳主動檢測的數據時,無法連接到主機。這個表明agent可以從server端獲取監控的items。
server端日誌
cannot send list of active checks to "192.168.242.201": host [WIN-HS2LFD8I4SL] not found
7. 問題原因
這是由於agent端和server端標記主機的方式不同,主動檢測時,agent的身份是配置文件中hostname的值,如果hostname沒有指明,則使用主機名代替,而我們server端標識主機使用的IP導致無法識別agent 主機。
8. 解決方法
- 只需將server 添加主機值主機名稱和agent中配置指令hostname一致進行。
- 將主動檢測改為被動檢測。
9. 總結
解決問題時,一步步驗證猜測。往往日誌文件會給我們很大的提示。
記一次Zabbix延時問題