zabbix在運維方面的監控方法小結
一些經典的運維問題: 1.配置檔案中有空格,導致服務端下發的域名出現問題 2.修改資料庫沒有備份 3.修改dnspod問題,指向了錯誤的IP地址 4.時間不一致,需要重新設定時區 5.啟動程式必須是最新版本,如:ps -ef|grep sdk-speech-1.1.1.jar 有可能沒有殺死老版本的程式 6.ssl證書更換(cdn,slb,nginx,tomcat,haproxy,upyun,qiniu) 7.域名解析,經過通用高防以後無法獲取客戶端的真實IP地址,獲取的全部是高防的IP地址 8.每個業務應用都需要至少雙例項(避免單點問題) slb,nginx,jar,redis,mysql9.域名證書到期時間監控 10.網路問題 4G網路連線系統沒有問題,發現wifi出現連線失敗的問題 原因是wifi上有vpn,連線到了國外的伺服器,同樣的域名只是dnspod解析的地區不同分國內國外(國外伺服器又沒有新增cp的資訊,導致認證失敗) 11.mysql資料庫utf8mb4編碼,innodb資料庫引擎,還有連線數,檔案控制代碼 12.slb的安全ip新增 13.關鍵的域名需要判斷是否解析到了正常的城市和國家(分國內、國外、港澳臺線路,或者移動,聯通線路等) elk,hadoop叢集的安全性,root密碼,伺服器許可權 es的9200埠,9300埠 qps需要注意是否達到瓶頸 磁碟的吞吐量 # sar-n DEV 2 5 Linux 2.6.32-431.11.29.el6.ucloud.x86_64 (rdp02_confluent) 12/26/2017 _x86_64_ (16 CPU) 11:17:44 PM IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s 11:17:46 PM lo 41508.12 41508.12 7543.42 7543.42 0.00 0.00 0.00 11:17:46 PM eth0 3872.081309.64 5181.46 183.86 0.00 0.00 0.00 IO監控分以下幾個級別: 1、系統級別 ,iostat vmstat dstat 2、程序級別 iotop pidstat 3、業務級別 ioprofile 4、檔案級別 lsof 基本上可以完全定位到IO問題了 運維的原則: 列出計劃方案併發出評審(具體實施方案,失敗的回滾方案) 中間實施時的通知,並且在業務低峰進行 事後的觀察(流量、資源使用),日誌是否報錯等 監控系統: zabbix監控 阿里雲監控 ucloud監控 資源監控 阿里雲 ucloud 機房 報警通知人管理(不同級別報警人不一樣,報警的方式簡訊,郵件,微信等) 每個服務都需要使用雙份 使用阿里雲和ucloud雲監控報警 1.伺服器硬體(cpu,磁碟,memory使用率) 2.頻寬使用率 3.資料庫rds使用率iops,connection,cpu,記憶體,空間 1.預設都安裝zabbix系統硬體監控包括: cpu 平均負載,idel小於10%報警 磁碟佔用率 主機密碼是否修改 是否重啟、關機 記憶體小於10%,觸發重啟java的voice服務 haiwai 1.tcp埠監控 nmap aya3.chinasoft.com -p 6666 | grep -c open 2.響應時間 3.埠監控(nmap監控tcp或者udp埠) 流量告警,通過aliyun監控平臺 ecs_InternetOutRateNew 4.對tcp連線數的監控 established個數大於8W established個數小於100 5.對關鍵程序的個數監控如voice 6.對http服務的監控(阿里雲和ucloud) 7.對叢集狀態的監控 8.對關鍵程序監控,程序掛掉重新啟動 java出現記憶體溢位的監控 UserParameter=java_error,sudo /bin/find /home/chinasoft -name hs_err_pid*.log -o -name java_pid*.hprof -o -name jvm.log -o -name core.*|wc -l 9.redis的qps和cpu使用率記憶體使用率 mysql的磁碟空間,cpu,記憶體使用率,連線數使用率 10.監控log日誌 # cat /usr/local/zabbix-agent/scripts/esb_status.sh #!/bin/bash # 日誌檔案目錄 path=/home/chinasoft/log/esbE001 # 找到最新的日誌檔名 ls -t 按照時間排序,最新的在上面 esb_file=`ls -t "${path}" | head -1` fail_count=`tail -n 500 $path/${esb_file} |grep 'failure'|wc -l` echo $fail_count 11.關鍵的介面監控,如 12.dnspod解析監控(是否解析到了國內或者國外,需要判斷) 13.資料庫,redis還有應用是否在同一機房同一個區域網(如果跨機房影響效能,高併發可能會引發問題) 14.寫指令碼自動刪除、清理日誌、是否需要切割日誌,統計日誌等 關於終端自動觸發執行action的配置: Defaults:jenkins !requiretty Defaults:zabbix !requiretty zabbix ALL=(ALL) NOPASSWD: ALL EnableRemoteCommands = 1 UserParameter=java_error,sudo /bin/find /data/chinasoft -name hs_err_pid*.log -o -name java_pid*.hprof -o -name jvm.log|wc -l UserParameter=check_web1,curl -I -m 10 -o /dev/null -s -w %{http_code}"\n" http://yuyin.chinasoft.com:9999/check UserParameter=check_port,nmap aya3.chinasoft.com -p 6666 | grep -c open # 每分鐘超時的次數 UserParameter=check_baidu,grep -a `date +%H:%M` /home/chinasoft/chinasoft-speech2/logs/all.log | grep '30000' | wc -l UserParameter=check_port0,/usr/bin/python /usr/local/zabbix-agent/scripts/check_port.py [[email protected] ~]# cat /usr/local/zabbix-agent/scripts/check_port.py #!/usr/bin/python #coding=utf-8 import types import urllib2 import json import socket html=urllib2.urlopen(r"http://u01.f.chinasoft.com/config_route?name=CT_ROOM&no=123") hjson = json.loads(html.read()) #print hjson ip = hjson["outside"] port = hjson["port"] #print ip #print port sk = socket.socket(socket.AF_INET, socket.SOCK_STREAM) sk.settimeout(10) try: sk.connect((ip,port)) print 1 except Exception: print 2 sk.close() # python指令碼,agentd.conf要配置Timeout = 30 #encodig:utf-8 import requests import json try: r = requests.get('http://api.chinasoft.com:8199/api3?appId=100000&method=queryOnlineUser&roomId=100000&version=2&appKey=10d5aea05bef4f4ed988e1278b53ab5c', timeout = 10) r_json = json.loads(r.content) res = r_json.get('result',0) print res except Exception as e: print 500 ********** 監控語音超時,超過30000ms UserParameter=check_log,grep "30000ms" /home/chinasoft/chinasoft-speech2/logs/all.log | wc -l # 刪除日誌指令碼 find /home/chinasoft/chinasoft_script_sdk/logs/bi -name "*.log.gz" -mtime +3 -exec rm -f {} \; #!/bin/bash path1=/home/proxy/rtmpclient/Bin64/log if [ -d $path1 ];then for file1 in `ls ${path}`; do if [ "${file1##*.}" == "log" ];then echo /dev/null >$path1/$file1 fi done fi path2=/home/proxy/rtmpclient/Bin64/log if [ -d $path2 ];then for file2 in `ls ${path2}`; do if [ "${file2##*.}" == "log" ];then echo /dev/null >$path2/$file2 fi done fi path3=/home/proxy/chatroom/Bin64/log if [ -d $path3 ];then for file3 in `ls ${path3}`; do if [ "${file3##*.}" == "log" ];then echo /dev/null >$path3/$file3 fi done fi java的溢位檔案jvm.log,觸發指令碼重啟java服務 #!/bin/bash for i in {/data/chinasoft/sdk_translator_speech,/data/chinasoft/chinasoft-speech2,/data/chinasoft/chinasoft-text2audio};do if [ -f $i/jvm.log ];then rm -f $i/jvm.log ps -ef|grep $i|grep -v grep|awk '{print $2}'|xargs kill -9 sleep 2 cd $i && /bin/bash start.sh start fi done
相關推薦
zabbix在運維方面的監控方法小結
一些經典的運維問題: 1.配置檔案中有空格,導致服務端下發的域名出現問題 2.修改資料庫沒有備份 3.修改dnspod問題,指向了錯誤的IP地址 4.時間不一致,需要重新設定時區 5.啟動程式必須是最新版本,如:ps -ef|grep sdk-speech-1.1.1.jar 有可能沒有殺死老版本的程式
zabbix運維監控 (1)
zabbix 監控一、監控概述1 分類:硬件監控 ----系統監控 ---- 應用監控 ---- 業務監控 ---- 安全監控 ---- 網絡監控 ----WEB監控 ---- 自動化監控 -----分布式監控 2 內容:磁盤容易壞、CPU(負載、用戶態及內核態、使用率) 、內存(使用率、尋址、大頁面內存)
Lnmp搭建zabbix運維監控系統
使用目的? 在公司專案中需要做一個日誌監控,最開始選擇的是efk,但是efk的資料相對較少並且之前對這幾個產品都沒接觸過,使用
MARK 一條關於Linux 運維方面個人向收藏網址
.net inux archive www. arch hive .cn mark art 吳鈞澤博客 https://wujunze.com/archives.html Linux運維筆記 https://blog.linuxeye.cn/ Linux中文網 http:/
2、python自動化運維——業務監控詳解
python自動化運維發送電子郵件模塊(smtplib)大概思路:實例化SMTP對象,連接smtp服務器以及開放的端口,調用starttls()方法建立安全鏈接,登錄賬戶和授權碼,發送郵件,最後退出腳本示例:#!/usr/bin/pythonimport smtplibimport string host=&
《阿里巴巴MongoDB4.0高階實戰:基於Java Spring Boot 2.0》運維、監控、聚合、叢集、監控等高階面試題
《阿里巴巴MongoDB4.0高階實戰》阿里巴巴技術大牛 資深專家P9葉翔、專家徐雷. NoSQL排名第一!最流行的NoSQL資料庫;谷歌、阿里巴巴、螞蟻金服、騰訊、百度等一線網際網路公司必備技能。 本系列課程涵蓋:MongoDB入門命令、管理、聚合分析、核心架構、資料庫管理、匯入匯出、索引、
自動化運維與監控
一:運維開發 運維開發一般需要熟悉Python和Shell,運維工具有: SaltStack(自動化運維),Ansible(自動化運維),Jinkens(持續整合&持續交付)
遠端運維(監控)系統概念——雲
私有云(Private Clouds)是為一個客戶單獨使用而構建的,因而提供對資料、安全性和服務質量的最有效控制。該公司擁有基礎設施,並可以控制在此基礎設施上部署應用程式的方式
運維之監控與安全篇------3.監控常用命令 、 Nagios監控
準備一臺新的主機 配置要求如下:配置固定ip 192.168.4.11、 網路yum源、永久關閉firewalld和selinux、 下載軟體包 提供監控服務的軟體:nagios cacti zabbix 1 監控目的:提前發現問題 報告系統執行狀況(吞吐量、
【snmp+ssh+linux】實現自動化運維與監控系統--持續更新中
【snmp+ssh+linux】實現自動化運維與監控 寫了個簡單的demo,可以實時監控CPU Memory Disk 的使用率,前臺用的Echarts,後臺用struts2返回json格式的資料
linux運維及常用方法
運維是什麼? 運維,這裡指網際網路運維,通常屬於技術部門,與研發、測試、系統管理同為網際網路產品技術支撐的4大部門,這個劃分在國內和國外以及大小公司間都會多少有一些不同。 一個網際網路產品的生成一般經歷的過程是:產品經理、需求分析、研發部門開發、測試部門測試、
拾裡運維篇之-Zabbix伺服器叢集監控平臺搭建(1)
昨天搭建完Zabbix的執行平臺,累得快起不來了,今天過來決定先從容易的入手,先按流程走一下Zabbix的客戶端安裝及配置。Zabbix的客戶端對應於它的檔名來說就是zabbix-agent。這東西其實就是資料採集器,這東東有兩種模式,一種是經由這東東直接把資料往Zabb
運維監控——zabbix環境的搭建配置
親測完成zabbix介面安裝 -------------2015年12月05號 一、安裝源配置: 1、關閉防火和selinux Service iptablesstop
運維基礎——Zabbix 設定Redis監控
下載模板 zabbix web端配置 Configuration-Templates-Import 選擇 templates_Redis_info_status_ALL+.xml 並完成匯入 找到Redis的host,在Templates裡,
運維監控大數據的提取與分析
monitor 運維監控 本文內容整理來自【敏捷運維大講堂】蔣君偉老師的線上直播分享。分別從以下3個維度來分享:1、雲時代監控分析的窘境;2、使用標簽標記監控數據的維度;3、監控數據應用場景。雲時代監控分析的窘境在虛擬化與容器技術廣泛應用的情況下,運維對象大規模地增長,監控平臺每天存儲的指標都以億計,
老男孩教育每日一題-第60天-一道實用Linux運維問題的9種Shell解答方法!
awk shell腳本 每日一題 2017-06-041.問題為:已知:/etc/hosts的內容為192.168.1.11 oldboy11.etiantian.org 192.168.1.21 oldboy21.etiantian.org 192.168.1.31 oldboy31.et
Linux日常運維小結
運維小結-011. 如何看當前Linux系統有幾顆物理CPU和每顆CPU的核數?物理cpu個數:cat /proc/cpuinfo |grep -c ‘physical id’CPU一共有多少核:grep -c processor /proc/cpuinfo將CPU的總核數除以物理CPU的個數,得到每顆CPU
Linux運維學習筆記之一:運維的原則和學習方法
linux 運維 筆記 一直在用Linux,但從未系統學習過,從1月1日開始學習到7月16日結束,近七個月學習,讓自已對Linux有了新的認識,老男孩老師的課真的不錯,實戰性很強。由於只能中午和晚上10點以後才有時間,所以所有的實驗是在不同電腦上完成的,文中IP可能有點問題,但應該不會影響實驗。同時,為了保證
初識運維3--在虛擬機中安裝Linux發行版系統(CentOS)的方法
初級運維 在講Linux系統發行版本的安裝過程之前,先大略說明一下虛擬化。 虛擬化:將底層硬件資源抽象為用戶更容易讀懂和使用的邏輯抽象層的技術。 最早由IBM提出,現使用率較高的虛擬化軟件平臺有三類:VMware workstation、VirtualBOX、HyperV。在這裏使用VMware wor
運維采集技術分享: 通過WMI監控NAT後的Windows系統
運維技術 it運維 勤智數碼 運維管理軟件 1、Windows OS和WMI簡介隨著互聯網技術的飛速發展,我們對於IT業務系統的服務能力要求越來越高。根據Gartner統計2017年1季度全球服務器出貨量超過125億美金,正在運行支撐各種業務的服務器數量更是龐大。這些服務器中有超過50%的服務