1. 程式人生 > >斷圖 first network error, wait for 15 seconds

斷圖 first network error, wait for 15 seconds

zabbix

前幾天,剛和群友討論過這個問題,他是snmp交換機的時候,圖時斷時續的。

我這裏也出現這樣的案例,不過是監控tomcat的時候,jstat占用cpu 90多,

引起正常的監控項目斷圖。

其實,它讓我們wait for 15 seconds,那麽意思不斷疊加15s後,是不是5分鐘後不能出圖,

還是負載高不能出圖?


案例

zabbix_server.log

12961:20170512:113910.624 Zabbix agent item "java.discovery_status[service_tomcat,all]" on host "172.x.x.x" failed: first network error, wait for 15 seconds


排查

top

top - 14:34:25 up 344 days, 21:11, 1 user, load average: 1.23, 1.09, 1.10

Tasks: 176 total, 1 running, 174 sleeping, 1 stopped, 0 zombie

Cpu(s): 25.0%us, 5.0%sy, 0.0%ni, 69.7%id, 0.1%wa, 0.0%hi, 0.2%si, 0.0%st

Mem: 3925304k total, 3672532k used, 252772k free, 174944k buffers

Swap: 4128764k total, 79512k used, 4049252k free, 2122448k cached


PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND

2484 tomcat 20 0 3333m 30m 12m S 99.8 0.8 9065:51 jstat

說明jstat異常,這個jstat是zabbix腳本用來獲取tomcat數據的。

[[email protected] local]# ps -ef|grep jstat
root      2483     1  0 May06 ?        00:00:00 sudo -u tomcat /usr/java/jdk/bin/jstat -gcutil 12470
tomcat    2484  2483 99 May06 ?        6-07:03:49 /usr/java/jdk/bin/jstat -gcutil 12470
root     17095 32501  0 14:32 pts/0    00:00:00 grep jstat
[[email protected]
/* */ local]# ps -ef|grep jstat root 2483 1 0 May06 ? 00:00:00 sudo -u tomcat /usr/java/jdk/bin/jstat -gcutil 12470 tomcat 2484 2483 99 May06 ? 6-07:04:20 /usr/java/jdk/bin/jstat -gcutil 12470 root 17097 32501 0 14:32 pts/0 00:00:00 grep jstat 解決 kill -9 2484就正常了,重啟zabbix_agentd,觀察負載為0.5左右。 剛開始懷疑是觸發器的問題,還把觸發器給禁用了。 至於這個問題的產生原因,有可能有幾點 強制殺死tomcat進程引起的 python腳本jstat_status.py調用jstat後,是不是成僵死進程了? 還是這個程序死鎖的原因?難道python有什麽特別註意的地方? 還需要做的 1.需要用python或者elk分析zabbix server端日誌 發現好多not suitable for value type [Numeric (unsigned)] and data type [Decimal] 2.某個進程占用cpu 80以上就是有問題,這個也需要添加監控中

其他斷圖原因有以下:

1.數據庫優化
比如Threads_created   | 4925853
2.zabbix server優化

技術分享

技術分享

3.參考菜光光的博客,從sql方面排查
http://caiguangguang.blog.51cto.com/1652935/1377089/
4.網卡問題
http://www.fyluo.com/?post=164
5.ZABBIX AGENT執行KEY,獲取數據時間超過30s
參考http://blog.chinaunix.net/uid-8108137-id-4591738.html
解決方案二
修改AGENT執行key的最大時間,源碼當中限制了最大時間30S。得修改源碼。
並且經過測試只修改AGETN的最大執行時間還不可以,SERVER或PROXY端的最大執行時間也是30S.
只修改AGENT端30S,ITEM可以采集ACTIVE的方式就可以了。


系統的穩定性,才是服務器穩定的前提。


本文出自 “python 運維” 博客,謝絕轉載!

斷圖 first network error, wait for 15 seconds