IT运维
IT Operation and Maintenance
可行性解决方案研究
中国农业银行数据中心 曹辉义 张恒新 张伟 周睿彦
近年来,随着信息化水平不断提高,人工智能、云存储和云计算等高科技技术逐步融合到银行的各个业务领域,业务规模呈爆发式增长,数据量呈指数级增长,存储海量数据的数据中心规模也日益扩大。为了保障数据中心机房IT设备的安全稳定运行,需要全面解决IT 设备的硬件监控问题。目前,虽然IT硬件监控系统基本可以覆盖数据中心机房内的绝大部分IT设备,但依然存在部分监控盲点,依靠传统的人工巡检或系统监控也存在一定的安全隐患。本文针对商业银行数据中心IT 设备监控盲点的可行性解决方案进行探讨,实地测试了机柜硬件指示灯监控系统和智能巡检机器人两种方案,并对其进行了多维度的对比分析,对解决数据中心机房IT设备的硬件监控盲点问题和实现硬件监控全覆盖具有一定的参考价值。
一、数据中心IT设备硬件监控的盲点
目前,商业银行数据中心机房运行的IT设备种类多、数量大,涉及小型机、PC服务器、刀片服务器、SAN存储、NAS存储、带库、负载均衡和专用设备等,各类设备规模通常达数千套。同时,随着设备的老旧系统缓慢下线,新系统的不断投产,数据中心并行运行的风险与日俱增。在这种客观生产运维环境下,数据中心机房的自动化运维管理水平仍是短板,而IT设备的硬件监控全覆盖是提升自动化运维水平的第一步。
当前,数据中心机房IT设备硬件监控的盲点主要有:部分专用设备如加密机、等,本身没有设计给硬件监控使用的网口;部分专用设备网口已经全部提供给业务使用,没有多余网口留给硬件监控系统接入;部分老旧设备如虚拟带库等无法接入硬件监控系统。
二、可行性解决方案的研究
为了解决当前IT设备硬件监控的盲点,本文从系统功能介绍、实地测试等多维度探讨了机柜硬件指示灯监控系统和智能巡检机器人两种解决方案。两者都是从IT设备指示灯着手,指示灯作为电子设备的最原始、最及时和最便捷的提示方式,能迅速准确地传递设备的运行状态。其主要原理是将获得的设备指示灯照片与核心服务器中设置的正常设备指示灯图进行比对分析,并第一时间将异常结果通过多种方式告警。由于不需要接入IT设备管理口和占用生产网带宽,两种方案部署时都不会影响设备正常运行。
1.机柜硬件指示灯监控系统
机柜硬件指示灯监控系统的基本框架较为简单,主要分为三部分:定制化机柜门及监控组件、核心监控服
49
2019 . 12 中国金融电脑