六十六、添加自定义监控项目、配置邮件告警、测试告警、不发邮件的问题处理

一、添加自定义监控项目

需求:监控某台web的80端口连接数,并出图

思路:先写一个脚本,能获取到数据,因为成图需要数据,再给这个脚本执行的权限,然后再用zabbix_get命令使服务端可以获得这些数据,再到服务端创建监控项目,再创建图形,有需要报警的再设置触发器。

两步:1)zabbix监控中心创建监控项目;2)针对该监控项目以图形展现

对于第一步,需要到客户端定义脚本,脚本名字位置都可以自定义

# vim /usr/local/sbin/estab.sh //内容如下

#!/bin/bash

##获取80端口并发连接数

netstat -ant |grep ':80 ' |grep -c ESTABLISHED

//-nat:显示网络链接的状态

查看80端口下ESTABLISHED状态的链接有多少个。

# chmod 755 /usr/local/sbin/estab.sh

客户端上编辑配置文件

# vim /etc/zabbix/zabbix_agentd.conf       //增加

UnsafeUserParameters=1    //表示使用自定义脚本

UserParameter=my.estab.count[*],/usr/local/sbin/estab.sh

//自定义监控项的key(键值)为my.estab.count,后面的[*]里面写脚本里面的参数,用逗号分割,如果没有参数则用*代替即可,这个括号是固定格式;脚本为/usr/local/sbin/estab.sh

重启zabbix-agent服务 systemctl restart zabbix-agent

首先到服务端验证,执行命令

# zabbix_get -s 192.168.93.131 -p 10050 -k 'my.estab.count'

0

//默认10050端口,做这个验证,一定要保持网络的通畅,没有防火墙规则,没有selinux。

然后在zabbix监控中心(浏览器)主机里配置创建监控项

填写名称和键值即可,其他暂时不改,键值写my.estab.count,键值是可以自定义的。

1.png

添加该项目后,到“监测中” “最新数据”查看刚添加的项目是否有数据出现

有了数据就可以添加图形了

“配置”“主机” “图形” “创建图形”

2.png

再创建一个触发器

3.png

最大连接数超过200时报警

4.png

二、配置邮件告警

使用163或者QQ邮箱发告警邮件

首先登录你的163邮箱,设置开启POP3、IMAP、SMTP服务

5.png

开启并记住授权码,这个密码尽量复杂,因为发邮件的密码就是这个。

spacer.gif6.png

然后到监控中心设置邮件告警

“管理”,“报警媒介类型”,“创建媒体类型”

名称和脚本名称都可以设置自定义,类型选择脚本

这三个参数分布在py脚本的参数里,这个顺序不能变。

{ALERT.SENDTO}        收件人

{ALERT.SUBJECT}       主题

{ALERT.MESSAGE}      邮件内容

spacer.gif7.png

服务端/etc/zabbix/zabbix_server.conf的zabbix配置文件里搜索Alert可以看到AlertScriptsPath=/usr/lib/zabbix/alertscripts,所以脚本需要放到这个目录下。

创建报警脚本mail.py

# vim /usr/lib/zabbix/alertscripts/mail.py   //这是一个Python脚本,内容参考如下

#!/usr/bin/env python#-*- coding: UTF-8 -*-import os,sysreload(sys)sys.setdefaultencoding('utf8')import getoptimport smtplibfrom email.MIMEText import MIMETextfrom email.MIMEMultipart import MIMEMultipartfrom  subprocess import *def sendqqmail(username,password,mailfrom,mailto,subject,content):gserver = 'smtp.163.com'gport = 25try:msg = MIMEText(unicode(content).encode('utf-8'))msg['from'] = mailfrommsg['to'] = mailtomsg['Reply-To'] = mailfrommsg['Subject'] = subjectsmtp = smtplib.SMTP(gserver, gport)smtp.set_debuglevel(0)smtp.ehlo()smtp.login(username,password)smtp.sendmail(mailfrom, mailto, msg.as_string())smtp.close()except Exception,err:print "Send mail failed. Error: %s" % errdef main():to=sys.argv[1]subject=sys.argv[2]content=sys.argv[3]##定义163邮箱的账号和授权码,你需要修改成你自己的账号和密码(请不要把真实的用户名和密码放到网上公开,否则你会死的很惨)sendqqmail('1234567@qq.com','aaaaaaaaaa','1234567@qq.com',to,subject,content)if __name__ == "__main__":main()#####脚本使用说明#######1. 首先定义好脚本中的邮箱账号和密码#2. 脚本执行命令为:python mail.py 目标邮箱 "邮件主题" "邮件内容"

# chmod 755 /usr/lib/zabbix/alertscripts/mail.py

测试一下这个脚本,发一封邮件到自己的邮箱,自己的邮箱能收到邮件,就代表这个发邮件的脚本写对了。

创建一个接受告警邮件的用户,zabbix监控中心web界面:

“管理”,“用户”,“创建用户”,

名字自定义,群组暂时先选Zabbix administrators组,语言中文;

报警媒介”,类型选择“baojing”,分类全选;

注意用户的权限,如果没有需要到用户组去设置权限,

进入用户群组,进入Zabbix administrators组,再点权限,再按照如下顺序全选所有群组,再添加即可,权限将变成读写,用户的权限也变成了读写。

spacer.gif8.png

设置动作,动作:触发器触发后所做的操作。

“配置”,“动作”,“创建动作”,名称写“sendmail”(自定义)

“新的触发条件”,A维护状态 非在 维护,B触发器示警度>=未分类

spacer.gif9.png

操作”页面,默认信息,内容如下

HOST:{HOST.NAME} {HOST.IP}                  Hostname

TIME:{EVENT.DATE}  {EVENT.TIME}         发件日期和时间

LEVEL:{TRIGGER.SEVERITY}                    示警度

NAME:{TRIGGER.NAME}                             定义哪个触发器触发了告警

messages:{ITEM.NAME}:{ITEM.VALUE}      告警时出现的状态码

ID:{EVENT.ID}                                                 事件的ID

操作界面的“新的”,做完图里上面的操作以后,最下方的添加一定要记得点,不然就白做了

spacer.gif10.png

添加好以后,再添加该动作:

spacer.gif11.png

“操作”,选择发送的用户为刚创建的用户,仅送到选择“baojing”

切换到“恢复操作”,把信息改成如下

HOST:{HOST.NAME} {HOST.IP}

TIME:{EVENT.DATE}  {EVENT.TIME}

LEVEL:{TRIGGER.SEVERITY}

NAME:{TRIGGER.NAME}

messages:{ITEM.NAME}:{ITEM.VALUE}

ID:{EVENT.ID}

点击“新的”,“操作”,选择发送的用户为刚创建的用户,仅送到选择“baojing”

spacer.gif12.png

这个动作最后的状态试已启用

三、测试告警

测试1:

到自己的主机的触发器里创建一个自定义的触发器

spacer.gif13.png

添加一个监控项:

spacer.gif14.png

最后添加这个触发器即可。

    然后到仪表板查看等待,这个动作启用需要一点点时间,等一会看会不会成功:

spacer.gif15.png

这个动作的状态一定要注意看,如果失败,可以点击看一下是什么原因,如果是空的,就可能是脚本没有执行的权限,或者动作的条件没有定义好。动作成功,163邮箱就立马收到了邮件了。

测试2:

把触发器里的表达式,将<1改为>1,再将这个监控项的数据更新间隔改为10秒,过了10秒以后,仪表板的告警(最近20个问题)便没有了。

“监测中”,“问题”,最下方可以看到系统负载的问题状态为已解决,还发送了两封邮件。

总结:不发邮件检查:

1.检查脚本,用python命令发邮件试一试,成功代表脚本没问题。

2.检查用户,报警媒介的收件人要写对,权限一定要是读写。

3.检查动作,条件,操作。

发送来的邮件,都是ID成对出现,就说明这是一对ID事件。

spacer.gif16.png

监控项里。类型,默认是Zabbix客户端,就是被动模式,写了主动式的就是主动模式,主动上报数据。