硬件监控:使用ipmitool实现Linux系统下对服务器硬件监控

avatar
作者
猴君
阅读量:2

一、监控背景

运维人员对服务器硬件监控主要通过主机人员日常巡检,以及zabbix监控。zabbix监控仅限于服务器CPU、内存故障等导致宕机或者重启从而触发主机状态告警,单个磁盘挂载文件系统因坏盘导致文件系统读写异常,其他情况下zabbix很难监控到硬件故障。而人工巡检发现硬件故障的时效性低,不能及时发现及时处理,同时存在遗漏的风险。对服务器硬件的监控可通过bmc口snmp监控,但在bmc管理网络监控不具备的情况下,可参考使用ipmitool工具结合zabbix监控软件,实现在LINUX系统下对服务器的硬件监控。

二、Ipmi简介

IPMI(Intelligent Platform Management Interface)即智能平台管理接口是使硬件管理具备“智能化”的新一代通用接口标准。用户可以利用 IPMI 监视服务器的物理特征,如温度、电压、电扇工作状态、电源供应以及机箱入侵等。Ipmi 最大的优势在于它是独立于 CPU BIOS 和 OS 的,所以用户无论在开机还是关机的状态下,只要接通电源就可以实现对服务器的监控。Ipmi 是一种规范的标准,其中最重要的物理部件就是BMC,一种嵌入式管理微控制器,它相当于整个平台管理的“大脑”,通过它 ipmi 可以监控各个传感器的数据并记录各种事件的日志。

三、监控方案

ipmitool sel list 通过字符形式查看 BMC 控制台的告警信息,通过对比两次的告警信息,判断是否有新的告警生产。

安装ipmitool,并加载相关模块。

cd /etc/yum.repos.d/

rm -f CentOS*

yum install  ipmitool -y

modprobe ipmi_watchdog

modprobe ipmi_poweroff

modprobe ipmi_devintf

modprobe ipmi_si

modprobe ipmi_msghandler

采集sel日志

ipmitool sel list >/root/ipmi/ipmi.log

采集新的sel日志,并对比两次日志的内容,如果内容相同,没有新的告警信息则输出0;如果内容不相同,产生了新的告警信息则输出1. 输出结果后将新的日志覆盖到/root/ipmi/ipmi.log,用于下一次对比。

ipmitool sel list >/root/ipmi/ipmi-new.log

cmp --silent /root/ipmi/ipmi.log  /root/ipmi/ipmi-new.log && echo 0 ||echo 1

mv -f /root/ipmi/ipmi-new.log /root/ipmi/ipmi.log

四、告警设置

上一步完成后,可将对比结果推送到zabbix,新增触发器,设置告警阀值为1。当主机产生新的sel日志时触发zabbix告警。运维人员接收到告警后登录主机检查具体告警原因,并及时处理。

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!