超大型数据中心一体化运维管理模式探讨

2023-11-22 10:28张晓艳
江苏通信 2023年5期
关键词:算力数据中心运维

张晓艳 王 欢

中国移动通信集团江苏有限公司南京分公司

0 引言

随着数字化需求的飞速增长,数据中心成为了知名的“能耗大户”。发改委、网信办、工信部、能源局四部门联合印发的《关于加快构建全国一体化大数据中心协同创新体系的指导意见》,要引导数据中心集约化、规模化、绿色化发展。与此同时工信部推出《新型数据中心发展三年行动计划(2021-2023年)》,推动新型数据中心数网、数云、云边协同,围绕新型数据中心高技术、高算力、高能效、高安全的“四高”特征,持续开展技术创新和标准规范研究,加快新型数据中心建设应用和落地。

数据中心成为了以算力为中心,网为根基,网、云、数、智、安、边、端、链等多要素融合的新型信息基础设施,超大型数据中心运维管理面临必要的改革。

1 研究背景

新型一体化数据中心发展目标变得更加多元化,不仅仅聚焦在基础设施方面,在利用率、算力、能效、网络时延方面都有目标要求。

一是算网云边业态转变,数据中心已经从传统的基础设施维护向提供算力服务能力转变。全专业的需求,要求数据中心做为一个独立核算体,以一体化融合“园长”制来运营管理园区。不仅要提升基础设施的安全性,还要从存储容量、性能效率、安全可靠和经济绿色四个维度全面提高数据中心存力和运力。

二是绿色节能要求提高,数据中心要综合运用电气、暖通、服务器等多种融合节能创新方案。从数据中心资源、环境、技术和经济等方面综合提升,并做好数据中心的碳排放管理。

三是业务连续性要求提高,数据的安全使用涉及到民生工程,跨专业的融合成为必要条件。数据中心要提升物理安全、人员安全、设备安全、消防安全、网络安全的能力。此外为了给客户提供优质服务,还需要增强关键基础设施运营保障能力、运营管理能力、网络运营能力和服务品质提供能力。

四是高效敏捷快速迭代,需要建立一体化智能运维平台提供算力、能效、网络等的综合管理能力。碳排放管理、AI节能管理、客户成本分析、客户服务报告等都需要统一的管理平台自动呈现。

综上,数据中心在算力服务能力、绿色节能管控、业务连续性保障、高效敏捷迭代等多方面的要求不断提高,迫切需要建立一套完善的运维管理体系来综合管理数据中心的运行。

2 一体化运维管理体系

数据中心的运维体系中,组织架构是人才培养、运维原则、服务管理和支撑平台的基础,人才培养是实现高效运维管理的必要条件,运维原则是确保数据中心稳定、高效运行的准则,服务管理是提供高质量、高效率服务的保障,支撑平台是支撑组织架构、人才培养、运维原则和服务管理的数字化工具。一体化的组织架构、一体化的人才培养、一体化的运维原则、一体化的服务管理、一体化的支撑平台相互关联、相互促进,共同推动数据中心向高效、安全、可靠的方向发展。

2.1 一体化的组织架构

传统运营商机房楼的组织架构是按专业分设管理部门,不同部门之间烟囱林立,各自为政,无法闭环。图1 展示的是数据中心一体化维护组织架构,该架构是推动数据中心职能制向项目制转变的总体框架,要求数据中心做为一个独立核算体,以一体化融合“园长”制来运营管理园区。是将传统的多样化的数据中心设备、服务、应用和网络进行整合集成,形成高度一体化的运维管理能力,实现建维融合、运维融合与营维融合。

图1 数据中心一体化维护组织架构

一是建维融合:数据中心更倾向于总成本,也就是建设成本+后期运维成本总和。所以维护人员要运维前置,甚至可以先参与建设后转向运维。维护人员深度参与到数据中心的规划、设计、施工、调测及验收工作中,建设真正绿色的数据中心。

二是运维融合:园区内资源共享关系运维的质量和成本。园区内的物业、消防、安防、基础设施、服务器甚至传输维护资源可以形成互补及融合。超大型数据中心不同于中小型数据中心,各专业间联动及协同的关系更紧密:例如:消防与楼宇门禁、微模块门禁、空调的联动,需要物业专业与基础设施专业的协同;园区直供水、地下水池、水泵的安全需要物业专业与基础设施专业的协同等。

三是营维融合:在客户初期参观调研园区时,维护人员能否做好营销甚至随销,是客户选择进驻的关键。在IDC 营销服务过程中,维护人员需参与到销售洽谈、项目实施、现场运维的各个环节,营维融合能有效提升客户满意度和公司品牌形象。

2.2 一体化的人才培养

超大型数据中心的人员需涵盖电气系统、暖通系统、智能化系统、消防系统等全专业人才。可以设置三级管理岗位:7*24 小时现场运维、7*24 小时现场支撑、5*8 小时技术支持;现场运维负责巡检及设备切换操作,需持有高压电工证、低压电工证、制冷证、消防设施操作证等专业技能认证证书。现场支撑负责故障处理及应急调度,技能要求及综合能力相较一线值班人员要高,作为专业工程师。技术支持负责规划设计、疑难问题处理、隐患整改等工作,作为系统工程师。表1 列举了数据中心各类型工程师的专业和技能要求。

表1 数据中心工程师专业知识及技术能力要求

对于合格运维人员的技能评估要通过认证才能上岗,上岗的人员要通过月度绩效考核、专项考核、培训演练考核等多维度评估能力,每年挑选优秀人才晋级升岗。通过必要的专业融合,一人持多证,达到人员精干,效率提升的目标。

2.3 一体化的运维原则

传统将数据中心运维事故的责任归咎于维护人员,但大多数错误都是因为设计妥协、预算缩减、人员裁减、供应商问题、缺乏流程,导致一线人员没有准备或者没有训练有素的应对事件。在运维过程中一定要秉持持续运维三大原则去维护管理数据中心,不能有丝毫的懈怠。

2.3.1 积极主动的原则

积极主动地发现问题并持续改进。每一起严重事故的背后必然有29 次轻微事故和300 起未遂事故及1000 起先兆。在日常运维中必须积极主动发现隐患跟踪解决,降低事故概率。建立如图2 所示的运维工单管理流程,将巡检、事件、维修、风险、变更等管理工单流程在平台上发布并闭环落地,从而建立多级工单管理机制来实现“发现、跟踪、升级、督办、解决”的闭环管理。分级处理的方案能形成有效的监督、考核及督促的作用。

图2 数据中心运维工单管理流程

2.3.2 不断实践的原则

维护、应急、操作流程规范不能束之高阁、纸上谈兵,还要通过周/月/年的演练及培训固化维护人员的行为。为了确保维护人员在突发故障情况下的切换操作与“肌肉记忆”一样自然而快捷,需要日复一日的演练及认证。每年年底需要规划下一年度的演练工作,综合考虑季节特点及维护工作的次序。例如:楼宇双路市电停电演练前必须完成楼内电池核对性放电实验;尽量将双路市电停电演练工作放在水冷系统的板换季节等。

对于分期建设的楼宇因设备种类不同,在制定应急流程、操作流程、维护流程要分楼宇制定,并且分楼宇分专业的开展演练及认证工作。为了减少运维的复杂性,建议数据中心在规划、设计及施工时各楼宇尽量使用统一方案。

2.3.3 公告周知的原则

构建数据中心运维知识体系,涵盖建设资料、运维EOP(应急流程)、MOP(维护流程)、SOP(操作流程)、SCP(设备参数)、数据中心制度规范等,实现“运维知识搜索引擎”关联告警,精确指导。此外,知识库的云端存放、共享能抵消维护人员流动带来的信息损失影响。图3 展示了数据中心知识库的架构。

图3 知识库管理

2.4 一体化的服务管理

一体化的服务响应的优势在于:在售前可以强营销,数据中心除了可以提供拎包入住的精品机房,还能提供定制化的机房服务,灵活的方式能实现与客户间的共赢与合作。在售中可以强支撑,整合的资源可以快速实现调度,集中高效低成本地提供服务支撑。在售后可以增粘性,实现一点响应、主动输出服务报告、提供交钥匙服务、包括增值能力输出、专家咨询等实现与客户资源能力的互补增效。

维护能力也可以作为一种营销的能力输出增收。通过客户的机架空间占用、带宽流量、设备用电等维度构建客户模型,结合电价计费策略,核算用电成本,生成能耗成本核算报告,推出客户价值分析,超电管理扩容等,助力营销拓展。

2.5 一体化的支撑平台

随着新型数据中心高技术、高算力、高能效、高安全的“四高”特征的不断发展,数据中心内部要建立跨专业的支撑平台。如图4 所示,运用三级的一体化智慧运维系统,将全专业融合管理,确保“监”、“管”、“控”每个环节无缝连接,在一二级基础模块上需要搭建三级管理模块:AI 节能、算力管理、绿电管理、碳排放管理等支撑数智发展,实现整体节能、自动化及安全运行。

图4 一体化智慧运维系统框架

2.5.1 AI 节能平台

通过神经网络算法构建能效因子模型,通过标准普尔分析,演算各因子的节能策略,综合考虑基础设施关联设备、服务器之间的能耗的磁性贴合作用,协调联动。例如:服务器资源与列间空调温度动态调配。

基于整个数据中心几百万个测点实时上传的电力、空调及服务器能耗数据,经过读取、归纳、处理,以园区、机楼、房间、微模块、机柜、设备等全维度自动分析用电能效数据,生成不同维度场景下的能效数据曲线。通过能耗的管理、超电机架管理支撑营销价值运营、客户成本分析。

2.5.2 算力管理平台

当算力逐步成为数据中心关键要素时,其价值不仅在“ 量”, 更需要“ 质”, 在研究降低能效PUE(PowerUsageEffectiveness)的同时要逐步向提升算效CUE(Computing Usage Effectiveness)方向探索,相同的能耗要能提供更多的算力。2022 年7 月由中国电子技术标准化研究院牵头多家单位参与编写的《计算中心有效算力评测体系白皮书》中明确了CUE 的测评方法,不仅要关注所需的算力总量,还得重视相应的能耗和碳排。

通过CUE 分析,可以引导数据中心的高质量建设及运维,从全栈融合的角度——自机房、能源基础设施、硬件基础设施至软件基础设施各层的整体设计与建设,提高数据中心的资源使用率。例如:在建设初期为资源池的计算机供给的电力基础设施设计采用更加节能的一体化方舱电源或者市电直供方案;在后期维护时对于备份资源池的计算机是否可以降频休眠降低能耗等。以此提升新型一体化数据中心的建设及运维的质量。

2.5.3 碳排放及绿电管理平台

随着数据中心绿色节能要求提高,数据中心要综合运用电气、暖通、服务器等多种融合节能创新方案。从数据中心资源、环境、技术和经济等方面综合提升,做好数据中心的碳排放管理。对于两高企业政府建立了严格的碳排放管理机制,作为一高(高耗能)企业的数据中心也应该应对潮流趋势,提前做好准备,精准分析数据中心内风火水电的碳排放情况,为国家未来的碳交易做好数据准备。

3 结束语

有预测指出,一体化大数据中心的算力核心产业带动关联产业规模在2021 年就超过8 万亿元。很显然,提供算力生产力的数据中心,将成为现代科技与产业发展的加速器,数字化社会必备的基础设施。为了适应时代的变革,要将技术运维转变为一体化运营,不仅要完成跨专业融合,还要从后台走上前台营销,助力大型数据中心成为支撑社会数字转型、智能升级、融合创新的新基建底座,支撑数字经济等宏观政策与顶层设计落地。

猜你喜欢
算力数据中心运维
多方求解智能时代算力挑战
这个第二不一般
卫星通信在算力网络中的应用研究
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
酒泉云计算大数据中心
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
民航绿色云数据中心PUE控制
杂乱无章的光伏运维 百亿市场如何成长
基于ITIL的运维管理创新实践浅析