数据中心基础设施运维迈入数字化时代
|
|||
发布时间:2021-11-17 | 作者:王晓东 张静 李林飞 | 来源:运行中心 | 字体大小: A+ A- |
2016年以前,运行中心基础设施保障部负责运营东四、三里屯两个数据中心机房,总机房面积为6000平方米,UPS、精密空调、柴发等大型基础设施数量不超过120台,蓄电池及各类传感器数量不足400块。十几年的深耕细作培养了一批在基础设施领域运维管理经验丰富的业务专家,他们对设备运行异常、故障应急处理、系统隐患等各类OT(Operation Technology)操作技能了然于胸。
从2016年开始,后沙峪数据中心开始为航信核心生产业务、腾讯等外包客户提供服务。截止2019年初,后沙峪数据中心已投产面积接近6万平方米,UPS、精密空调、柴发等大型基础设施数量超过1000台,蓄电池及各类传感器数量超过2万块,人均运维机房面积及设备数量都有10倍以上的增长。人工巡检一圈要1.5小时,从ECC运控中心到最远端的四层柴发设备步行要10分钟以上,上述现状都给后沙峪数据中心的安全运维管理带来了极大的挑战。
“老革命遇到新问题”,运行中心基础设施保障部一方面努力提升专业技能、建设运维管理体系、掌握基础设施架构及运行规律,另一方面调研业界头部企业的发展方向,最终确定以高质量的规划、建设数据中心基础设施管理系统(以下简称DCIM)为突破口,全面提升基础设施的运维管理能力。
要建设DCIM系统,首先要解决的问题就是基础运行数据的统一采集和存储。IT(Information Technology)行业在发展之初就有各类详尽的技术标准(如TCP/IP通讯协议族等)作支撑,数据高度格式化、数据传输时延低、质量高。而基础设施行业由于长期专注于高质量稳定运行,而忽略了数据通讯和数据标准化建设,存在着MODBUS、IEC104、XBrother、厂商API接口等多种通讯接口,且多是被动轮询获取数据的方式,造成了BA、动环、柴发、电力等各专业系统的烟囱式建设模式,给运维人员带来了困扰。为解决上述情况,运行中心基保部从建立监控规范和建设标准数据接入引擎入手,实现对后沙峪数据中心基础设施关键运行数据(20类设备、5种通讯协议、220余个运行参数)的标准格式化、自动采集解析和统一管理,为后续业务逻辑建设奠定了数据基础。
在运行数据基础上,DCIM项目利用开源工具实现了运行数据的直观可视化,使得设备运行数据情况第一次自动、直观的展现在运维专家面前,实现从依靠设备指示灯、经验型、黑盒式的传统运维模式转变为依靠数据的信息化运维模式。这一技术工具的应用激发了各专业团队热情,自定义超过1200张的各类设备运行图表,基本覆盖了后沙峪数据中心全部基础设施,加深对设备运行状态和规律的掌握;同时对异常事件、故障等使用具体数据和图表分析,拿数据佐证。
PUE(Power Usage Effectiveness,电能利用效率)是国内外数据中心普遍接受和采用的一种衡量数据中心基础设施能效的综合指标,从2017年开始运行中心基保部以PUE作为数据中心管理的重要抓手。开始阶段,大家每到月底就组织10人左右走遍后沙峪数据中心抄录各个表计数据,然后回来使用Excel表格进行计算。这种方式只能做到月度PUE数据的计算分析,费时费力、人困马乏。针对这一矛盾,运行中心基保部开始利用智能仪表和数据自动采集技术,将PUE计算公式固化在DCIM平台中,实现了小时级PUE的计算,并为专业团队提供制冷单元、UPS损耗等各部分组成比例,实现了后沙峪数据中心能耗PUE的可见、可计量、可分析(效率提升700倍),让运维团队腾出更多精力来提升生产安全运维能力。同样,我们在分析了电力局收费规则后实现了电费的线上计算,具备了为客户提供更灵活服务的能力。
回看2019年,我们已经做了很多,各专业团队同事充分感受到IT带来的变化并因此受益;但调研DCIM行业各头部企业的建设进度,我们深感需要做的还有很多。如果说建设DCIM是一场马拉松,那么2019年我们才刚刚完成了前十公里的热身。“凡是过往,皆为序曲”,基础设施运维管理的数字化运维转型大幕已徐徐拉开,后发优势使得我们得以快速追赶。我们相信正走在正确的道路上,基础设施的运维管理会越来越灵活、可视,会逐步从线下走到线上,更高质量的支撑航信核心生产业务和外包客户的业务服务需求。
|