nagios利用nrpe监控远程服务状态不一致问题

发表时间:2014-11-24 9:44 | 分类:Nagios | 浏览:2,606 次

nagios的nrpe插件可以实现监控“本地”服务器的状态,但是如果注意不当还是会出现问题。比如自己编写一个自定义脚本,在远程服务器本地执行监控脚本显示服务状态正常,但是在nagios服务器调用check_nrpe插件执行时却出现问题。即出现利用nrpe监控远程服务状态本地和远程执行结果不一致的情况。

下面是一个简单的监控脚本例子。

#!/bin/bash

#define status
STATE_OK=0
STATE_WARNING=1
STATE_CRITICAL=2

sms_home=/home/appadmin/sms
cd $sms_home

a=`ps -ef |grep -v grep |grep -c smsserver`
if [ $a -eq 0 ];then
        echo "CRITICAL - SMS service is not running!"
        exit $STATE_CRITICAL
fi
s1=`tail -n 10 $sms_home/sms.log |grep -c ERROR`

#modem status
m_cnt=0
err=0

for modem in `grep ^[a-z] SmsServer.conf |grep "gateway.*" |cut -d, -f1|awk -F '=' '{print $NF}'`
do
        m=`grep "GTW: $modem: Gateway status" sms.log.test |sed -n '$p'|awk '{print $NF}'`
        if [ "$m" != "STARTED" ];then
                let err=$err+1
        fi
        let m_cnt=$m_cnt+1
done

case $err in

$m_cnt)
        echo "CRITICAL - All gateway's status is error!" 
        exit $STATE_CRITICAL
        ;;
1 | 2 | 3 | 4)
        echo "WARNING - There are $err modems running error!"
        ;;
*)
        if [ $s1 -ne 0 ];then
                echo "CRITICAL - SMS service is running error!"
                exit $STATE_CRITICAL
        else
                echo "OK - SMS service is Ok!"
                exit $STATE_OK
        fi
        ;;
esac

我在远程服务器运行这个脚本的时候提示“WARNING - There are 2 modems running error!”,但是在nagios所在服务器运行check_nrpe的时候却不一样。

root@ubuntu:~# /usr/local/nagios/libexec/check_nrpe -H 192.168.188.105 -c check_sms
CRITICAL - All gateway's status is error!

经过排查,发现远程执行的时候$err等这些参数的值一直是0。

这里我在配置的时候就忽略了一个点。因为nagios和nrpe执行的时候使用的用户和组都是nagios,而远程本地测试的时候却是root。在远程本地使用nagios用户去执行这个脚本的时候提示没有权限读取/home/appadmin/sms目录。这个就是利用nrpe监控远程服务本地和远程状态不一致问题的原因。修改权限后监控一切正常。

本文标签:

本文链接:https://www.sijitao.net/1826.html

欢迎您在本博客中留下评论,如需转载原创文章请注明出处,谢谢!

一键脚本 博客历程 留言联系 文章归档 网站地图 谷歌地图
Copyright © 2010-2024 章郎虫博客 All Rights Reserved.