斷圖 first network error, wait for 15 seconds
前幾天,剛和群友討論過這個問題,他是snmp交換機的時候,圖時斷時續的。
我這裏也出現這樣的案例,不過是監控tomcat的時候,jstat占用cpu 90多,
引起正常的監控項目斷圖。
其實,它讓我們wait for 15 seconds,那麽意思不斷疊加15s後,是不是5分鐘後不能出圖,
還是負載高不能出圖?
案例
zabbix_server.log
12961:20170512:113910.624 Zabbix agent item "java.discovery_status[service_tomcat,all]" on host "172.x.x.x" failed: first network error, wait for 15 seconds
排查
top
top - 14:34:25 up 344 days, 21:11, 1 user, load average: 1.23, 1.09, 1.10
Tasks: 176 total, 1 running, 174 sleeping, 1 stopped, 0 zombie
Cpu(s): 25.0%us, 5.0%sy, 0.0%ni, 69.7%id, 0.1%wa, 0.0%hi, 0.2%si, 0.0%st
Mem: 3925304k total, 3672532k used, 252772k free, 174944k buffers
Swap: 4128764k total, 79512k used, 4049252k free, 2122448k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
2484 tomcat 20 0 3333m 30m 12m S 99.8 0.8 9065:51 jstat
說明jstat異常,這個jstat是zabbix腳本用來獲取tomcat數據的。
[[email protected] local]# ps -ef|grep jstat root 2483 1 0 May06 ? 00:00:00 sudo -u tomcat /usr/java/jdk/bin/jstat -gcutil 12470 tomcat 2484 2483 99 May06 ? 6-07:03:49 /usr/java/jdk/bin/jstat -gcutil 12470 root 17095 32501 0 14:32 pts/0 00:00:00 grep jstat [[email protected]
其他斷圖原因有以下:
1.數據庫優化 比如Threads_created | 4925853 2.zabbix server優化
3.參考菜光光的博客,從sql方面排查 http://caiguangguang.blog.51cto.com/1652935/1377089/ 4.網卡問題 http://www.fyluo.com/?post=164 5.ZABBIX AGENT執行KEY,獲取數據時間超過30s 參考http://blog.chinaunix.net/uid-8108137-id-4591738.html 解決方案二 修改AGENT執行key的最大時間,源碼當中限制了最大時間30S。得修改源碼。 並且經過測試只修改AGETN的最大執行時間還不可以,SERVER或PROXY端的最大執行時間也是30S. 只修改AGENT端30S,ITEM可以采集ACTIVE的方式就可以了。
系統的穩定性,才是服務器穩定的前提。
本文出自 “python 運維” 博客,謝絕轉載!
斷圖 first network error, wait for 15 seconds