1. 程式人生 > >企業監控利器nagios應用續集

企業監控利器nagios應用續集

備份 sta ptime predict fail 分享圖片 pts disk mysql

上篇講到了nagios服務端和客戶端的安裝,本篇繼續將nagios的配置、出圖及插件開發。

1.配置server端nagios監控服務

nagios服務端安裝後,安裝目錄是/usr/local/nagios,主配置文件是/usr/local/nagios/etc/nagios.cfg,主機配置等相關配置文件以.cfg結尾。
主配置文件中定義一些需要監控的配置,數據采集等,cgi.cfg文件定義一些如頁面刷新時間,用戶訪問權限控制等。
配置主配置文件nagios.cfg
找到cfg_file部分,進行設置
vim /usr/local/nagios/etc/nagios.cfg +34
添加如下內容
cfg_file=/usr/local/nagios/etc/objects/hosts.cfg

cfg_file=/usr/local/nagios/etc/objects/services.cfg
cfg_dir=/usr/local/nagios/etc/objects/services -------------------------->>配置目錄,則目錄下所有.cfg的文件都可以被nagios識別,比較方便。

去掉localhost.cfg配置
添加hosts和services文件及目錄文件
cd /usr/local/nagios/etc/objects/
head -51 localhost.cfg >hosts.cfg
touch services.cfg
mkdir /usr/local/nagios/etc/objects/services

chown -R nagios.nagios *

objects目錄下文件::
commands.cfg #命令定義配置文件,裏面定義的命令可以被其他文件引用
contacts.cfg #聯系人和聯系人組配置文件
localhost.cfg #監控本地機器的配置文件
printer.cfg #監控打印機的一個事例配置文件(默認未啟用)
switch.cfg #監控路由器的一個事例配置文件(默認未啟用)
templates.cfg #模板配置文件,在此可以定義模板,在其他文件中引用
timeperiods.cfg #定義監控時間段的配置文件
windows.cfg #監控Windows的一個事例配置文件(默認未啟用)

hosts.cfg生產配置

define host{
name linux-server --監控linux主機 --------------------------可以在模板中templates.cfg選擇配置
use generic-host --引用其它主機的配置
check_period 24x7 --監控主機的時間段
check_interval 5 --檢查時間間隔
retry_interval 1 --重試檢查時間間隔
max_check_attempts 2 --檢查多少次才認為是宕機
check_command check-host-alive --檢查主機狀態的命令(check-host-alive在commands.cfg文件中定義)
notification_period 24X7 --主機故障時報警時間
notification_interval 3 --當主機一直故障每隔3分鐘發送一次報警
notification_options d,u,r --定義主機在什麽狀態時發送告警
process_perf_data 1 ----------收集數據用作出圖
contact_groups admins --指定聯系人組
register 0
}
本次配置信息如下:共三臺主機。
主機名 IP 用戶
nagios-client1 192.168.132.16 客戶端
nagios-client2 192.168.132.14 客戶端
nagios-server 192.168.132.20 nagios服務端
vim hosts.cfg
define host{
use linux-server
host_name 016-nagios-client1
alias 016-nagios-client1
address 192.168.132.16
}
define host{
use linux-server
host_name 014-nagios-client2
alias 014-nagios-client2
address 192.168.132.14
}

配置文件裏加了兩臺主機的配置。
定義一個主機組 ----------------------------》配置主機組,可以批量管理主機組中的主機
define hostgroup{
hostgroup_name linux-servers
alias Linux Servers
members 016-nagios-client1,014-nagios-client2
}
services.cfg配置
服務配置與主機配置類似。
配置樣例
define service{
use generic-service
host_name 016-nagios-client1 ------------------------可以添加多臺主機
service_description check_url
check_command check_url
max_check_attempts 3
normal_check_interval 2
retry_check_interval 2
check_period 24x7
notification_period 24x7
notification_interval 60
notification_options w,u,c,r
contact_groups admins
process_perf_data 1
}

如果要通過nrpe監控客戶端的資源,還需要在服務端的commands.cfg中定義
添加如下內容nrpe定義
#‘check_nrpe‘ command definition
define command{
command_name check_nrpe
command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
}
編輯cgi配置文件,進行授權。由於之前創建web登陸用戶為tuwei,沒有權限查看主機及服務信息。
可以編輯cgi.cfg文件將nagiosadmin用戶替換為tuwei,或者在後面加上tuwei,用逗號隔開。
:g/nagiosadmin/s//tuwei/g
啟動nagios服務
登陸web界面查看services和hosts信息
技術分享圖片
技術分享圖片

2.nagios模板並開發腳本批量配置模板

在生產環境中可以將主機和服務配置簡寫,相關配置放在模板中,可以實現批量模板配置。
腳本如下
#!/bin/bash
##############################################################
#File Name: template.sh
#Version: V1.0
#Author: tuwei
#Blog Site: http://blog.51cto.com/tuwei
#Created Time : 2018-11-01 19:38:18
#Environment: CentOS 6.9 Kernal 2.6.32
##############################################################
####################template configure################
for SERVICENAME in load mem disk iostat swap
do
cat >>/usr/local/nagios/etc/objects/templates.cfg << EOF
define service{

    name                            generic-$SERVICENAME-service    
active_checks_enabled           1 
service_description             $SERVICENAME
check_command     check_nrpe!check_$SERVICENAME
passive_checks_enabled          1               
parallelize_check               1               
obsess_over_service             1               
check_freshness                 0               
notifications_enabled           1               
event_handler_enabled           1               
flap_detection_enabled          1               
failure_prediction_enabled      1               
retain_status_information       1               
retain_nonstatus_information    1               
is_volatile                     0               
 register                       0
max_check_attempts              8               
normal_check_interval           3                       
retry_check_interval            2                       
check_period                    24x7
notification_period             24x7                
notification_interval           60       
notification_options            w,u,c,r         
contact_groups                  admins
process_perf_data               1

}
EOF
done

創建服務分組
語法如下
define servicegroup {
servicegroup_name MEM Useage
alias linux servers
members 016-nagios-client1, MEM Useage, 014-nagios-client2, MEM Useage

}
修改模板中關於mem,將描述改為MEM Useage。在services.cfg文件中添加服務組信息。

在生產環境中可以根據業務進行服務分組。
下圖是我搭建後分組圖。
技術分享圖片

3.nagios圖形監控管理(服務端)

Pnp安裝圖形監控曲線
pnp網站:www.pnp4nagios.org
安裝pnp軟件依賴包
yum -y install cairo pango zlib zlib-devel freetype freetype-devel gd gd-devel
安裝libart_lgpl和rrdtool,這裏以編譯安裝為例。
tar xf libart_lgpl-2.3.17.tar.gz
cd libart_lgpl-2.3.17
./configure
make && make install
cp -r /usr/local/include/libart-2.0/ /usr/include/

tar xf rrdtool-1.2.14.tar.gz
cd rrdtool-1.2.14
./configure --prefix=/usr/local/rrdtool --disable-python --disable-tcl
make
make install
[root@salt-master rrdtool-1.2.14]# ls -l /usr/local/rrdtool/bin
total 116
-rwxr-xr-x 1 root root 55641 Oct 2 18:36 rrdcgi
-rwxr-xr-x 1 root root 6727 Oct 2 18:36 rrdtool
-rwxr-xr-x 1 root root 52635 Oct 2 18:36 rrdupdate

安裝成功
安裝pnp
tar xf pnp-0.4.14.tar.gz
cd pnp-0.4.14
./configure --with-rrdtool=/usr/local/rrdtool/bin/rrdtool \
--with-perfdata-dir=/usr/local/nagios/share/perfdata
make all
make install
make install-config
make install-init
查看。
[root@salt-master pnp-0.4.14]# ll /usr/local/nagios/libexec/|grep process
-rwxr-xr-x 1 nagios nagios 31826 Oct 2 19:33 process_perfdata.pl
表示安裝成功
nagios出圖基本配置
編輯nagios配置文件
備份cp nagios.cfg nagios.cfg.ori
vim nagios.cfg +835
將process_performance_data=0 改為process_performance_data=1
sed -i ‘s#process_performance_data=0#process_performance_data=1#‘ nagios.cfg
將如下兩行的#去掉
#host_perfdata_command=process-host-perfdata
#service_perfdata_command=process-service-perfdata
修改command配置文件,添加收集數據配置。
刪除裏面關於process-service-perfdata的配置並添加以下內容

define command{
command_name process-host-perfdata
command_line $USER1$/process_perfdata.pl
}

define command{
command_name process-service-perfdata
command_line $USER1$/process_perfdata.pl
}

模板文件中添加process_perf_data 1 參數。

檢查語法並reload nagios服務。
查看http://192.168.132.20/nagios/pnp/index.php
技術分享圖片

整合pnp url鏈接到nagios圖形顯示界面中
在hosts.cfg中添加或者在模板中添加(主機出圖)
action_url /nagios/pnp/index.php?host=$HOSTNAME$

服務出圖,在模板中添加
action_url /nagios/pnp/index.php?host=$HOSTNAME$&srv=$SERVICEDESC$
重啟nagios
出圖數據存放的路徑
[root@nagios-server tools]# ll /usr/local/nagios/share/perfdata/
total 8
drwxr-xr-x 2 nagios nagios 4096 Oct 2 22:49 014-nagios-client2
drwxr-xr-x 2 nagios nagios 4096 Oct 2 22:49 016-nagios-client1

出圖是為了將歷史記錄保留,可以預判未來的趨勢。在生產環境中比較重要。

4. nagios插件開發

安裝nagios-plugins後會生成一些nagios插件,nagios僅僅是一個監控平臺。要監控
主機及服務需要配置或調用插件或程序文件才能完成。
雖然有一些插件軟件,但生產環境中我們想監控的一些服務。nagios插件沒有。,如nfs狀態。負載均衡RS的VIP等等。
編寫nagios插件說明:
nagios插件開發原理
Nagios插件是Nagios提供的一種可通過擴展方式部署的組件,該插件支持Java、C\C++、php等多種語言開發,操作員通過修改配置文件和相應參數,就能很方便地將該插件集成到Nagios中,實現對目標系統的監控。
Nagios插件程序可以提供兩個返回值,一個是插件的退出狀態碼,一個是插件在控制臺打印的第一行數據。退出狀態碼可以被Nagios主程序作為判斷被監控系統服務狀態的依據,控制臺打印的第一行數據可以被Nagios主程序作為被監控系統服務狀態的補充說明。

以上兩點很重要:1,給返回狀態碼 2,打印狀態說明。
相關狀態可以從如下文件中看到
[root@nagios-server libexec]# head -7 utils.sh
#! /bin/sh

STATE_OK=0
STATE_WARNING=1
STATE_CRITICAL=2
STATE_UNKNOWN=3
STATE_DEPENDENT=4 --不常用
nagios插件開發語言:

不限制開發語言,只要該插件能被nagios調用獲取到相應服務數據就行。如能在命令行執行輸出結果也可以,常用的插件語言有shell,perl,python,php,c/c++.
使用shell開發nagios插件
變量測試
[root@nagios-server tools]# basename /etc/inittab ---腳本名稱
inittab
[root@nagios-server tools]# dirname /etc/inittab 路徑
/etc

開發插件需要用到的:
echo $0
PROGNAME=basename $0
PROGPATH=dirname $0
echo $PROGNAME
echo $PROGPATH
[root@nagios-server scripts]# sh /server/scripts/a.sh
/server/scripts/a.sh
a.sh
/server/scripts

監控url插件。
[root@nagios-server libexec]# cat check_url.sh
#!/bin/bash
#############################################################
PROGNAME=basename $0
PROGPATH=dirname $0
. $PROGPATH/utils.sh
if wget -T 10 --spider http://192.168.132.16>/dev/null 2>&1
then
echo ‘HTTP OK: HTTP/1.1 200 OK ‘
exit $STATE_OK -------簡單寫法exit 0
else
echo "HTTP is not ok,http_code:curl -I -m 10 -o /dev/null -s -w %{http_code} 192.1132.16"
exit $STATE_CRITICAL--------------簡單寫法 exit 2
fi
執行腳本,註意要用全路徑。
[root@nagios-server libexec]# sh /usr/local/nagios/libexec/check_url.sh
HTTP OK: HTTP/1.1 200 OK
將192.168.132.16 http服務關閉。
[root@nagios-server libexec]# sh /usr/local/nagios/libexec/check_url.sh
HTTP is not ok,http_code:000
將該腳本修改為通用腳本。將IP修改為變量,並判斷參數個數。
如何使用插件
chmod 755 check_url.sh
chown nagios.nagios check_url.sh
在command配置文件中定義

define command{
command_name check_url
command_line $USER1$/check_url http://blog.tuwei.org/test.html
}
在services.cfg中添加url服務

如果是要開發如監控密碼文件,則需要在監控端開發,不是服務端。
#!/bin/sh
if [ md5sum -c /mnt/ps|grep OK|wc -l -eq 1 ];then
echo "/etc/passwd is ok"
exit 0
else
echo "/etc/passwd FAILED"
exit 2
fi
監控mysql,利用自帶的mysql插件查詢
[root@tuwei-blog nagios]# /usr/local/nagios/libexec/check_mysql -H 192.168.132.16 -urep -prep99
Uptime: 149369 Threads: 2 Questions: 7 Slow queries: 0 Opens: 16 Flush tables: 1 Open tables: 4 Queries per second avg: 0.0

服務端開發插件簡介:

  1. 確認插件[root@nagios-server objects]# ll /usr/local/nagios/libexec/check_http
    -rwxr-xr-x 1 nagios nagios 520606 Sep 28 21:23 /usr/local/nagios/libexec/check_http 需要有執行權限
  2. 確實command.cfg配置中是否定義了上述插件
  3. 編輯服務配置文件,定義相關服務,使用上述已經定義的插件命令
  4. 檢查語法
  5. 加載配置

客戶端開發插件:

  1. 確認開發插件命令是否存在/usr/local/nagios/libexec,需要有執行權限
  2. 確認/usr/local/nagios/etc/nrpe.cfg配置文件中是否定義
  3. 重啟nrpe服務
  4. 到服務器端編輯服務配置文件,定義相關服務,使用上述已經定義的插件命令
  5. 檢查語法
  6. 加載配置

企業監控利器nagios應用續集