人工智能促进数据中心绿色节能研究

2024-03-13 12:19陈晓朋许可欣梁宇栋
信息通信技术与政策 2024年2期
关键词:冷却系统数据中心运维

陈晓朋 许可欣 梁宇栋

(1.华为技术有限公司,深圳 518129;2.中国信息通信研究院云计算与大数据研究所,北京 100191)

0 引言

随着新一轮科技革命和产业变革的兴起,以数据为核心的生产要素、以数字技术为驱动力的新型生产方式蓬勃发展,社会正快速步入数字经济时代。数据中心是发展数字经济的算力底座,也是数字化产业链的关键一环。截至2023年6月,全国在用数据中心机架总规模超过760 万标准机架,算力总规模达到197 EFLOPS,位居全球第二,比2022年同期增长30%[1]。与此同时,数据中心能耗问题日益凸显,在传统数据中心,产品级节能技术应用已接近天花板,且系统复杂、设备多,各设备间能耗影响关系错综复杂,难以用传统工程学公式模拟,加之传统控制方式各自为政,作用已到极限。在此背景下,数字化及人工智能(Artificial Intelligence,AI)技术是推动数据中心电能利用效率(Power Usage Effectiveness,PUE)预测和指标优化实践的重要基础工作。基于专家经验的传统人工PUE预测和能效优化基本着眼于单设备或者单系统运行能效,尚未考虑到多系统协同与联动。通过AI技术应用,可以保障数据中心能效优化由数据驱动,更加有章可循,从而规范和促进我国数据中心节能提效。

1 绿色数据中心发展趋势

随着产业的规模发展,数据中心能耗成为社会广泛关注的话题。对于从业者而言,实现数据中心的绿色化发展也是体现技术水平的重要方面[2]。数据中心是技术密集型产业,设备和系统技术复杂,对性能、安全要求较高,能耗也涉及多个方面。因此,节能降碳是一项系统工程,涉及规划、设计、建设、运维等方面,任一环节出现问题都会影响最终能效水平。据统计,数据中心IT及网络设备在数据中心总耗电占比约为45%~50%,制冷设备占比约为30%~45%,制冷系统耗电与选址地点、系统方案以及运行要求相关,并与当地全年气候变化息息相关;供配电设备约占10%~15%,供配电系统耗电通常以供电效率损失和配电损耗为主,供配电架构确定后供电效率和损耗即确定,只要其他系统用电就会有一定的损失[3]。故PUE数值计算结果受多种因素影响,当单一系统节能潜力充分挖掘后,下一个阶段能效管理的核心命题则是“集成”,需考察具体项目全生命周期、系统规划节能方案能力,打造全栈节能能力是节能减碳未来主要创新发展趋势。

《新型数据中心发展三年行动计划(2021—2023年)》提出新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区力争降低到1.25以下。此外,我国工业和信息化部通过创建国家绿色数据中心、国家新型数据中心典型案例名单,引导企业建设发展绿色集约型数据中心。2023年,我国新建大型及以上数据中心PUE降至1.3以下,全国最优水平达到1.08,能效水平逐步提升。绿色低碳技术广泛应用,我国有120多个数据中心绿色低碳等级达到4A级以上[4]。虽然新建大规模数据中心PUE设计及运行水平稳中向好,但目前我国老、旧数据中心绿色技术应用及PUE发展与欧洲、美国等国家和地区相比还存在一定的差距。数据显示,我国中、小规模数据中心PUE值普遍偏高,各地政府及数据中心企业已经开始关注到这一发展问题,主动探寻“老、旧、小、散”数据中心的节能改造路径,相信未来在生产制造、通信、互联网、公共机构、金融、能源等重点领域将迎来老、旧数据中心改造浪潮[4]。

2 AI在数据中心节能方面的应用

鼓励数据中心应用绿色先进技术。一方面应在应用上鼓励数据中心采用高效系统,优先采购先进绿色技术产品,建设数据中心能源消耗在线监测平台,开展数据中心能耗监测评估,从数据中心应用上实现节能;另一方面应在源头上引导数据中心高效利用清洁能源和可再生能源,深化数据中心绿色设计、施工、采购与运营管理,全面提高资源利用效率,从源头上实现减碳[5]。除此之外,近年来也涌现出一批基于AI、大数据、物联网、仿真模拟的数字化新技术,可以优化机房的冷/热气流布局,实现精确送风、热源快速冷却、冷源设备精准自动调节,目前已在华为、阿里巴巴、百度、腾讯等企业大量应用,并取得了显著的节能效果。

在数据中心运行过程中,能耗主要由IT设备、配电设备(配电损耗)和冷却系统构成[6],图1给出了一个PUE为1.59的典型传统数据中心能耗分布比例示意。其中,IT设备能耗占比最高。案例中数据中心配电设备效率已接近或达到90%以上,配电损耗也难以大幅降低,因此降低冷却系统能耗对提升该数据中心能效非常重要。

图1 典型传统数据中心能耗分布实例

随着大数据、云计算技术不断演进,AI、物联网技术的成熟,绿色数据中心对新一代信息技术应用进入快速发展阶段。数据中心冷却系统是典型的多变量耦合非线性时变系统,各部件相互影响、制约。针对冷却系统末端负荷和室外环境变化,基于AI节能技术通过监测运行参数(如温度、压力、流量、能耗等),获得全面的温度场、速度场、压力场等参数,同时建立系统能耗模型(如冷机、水泵、空调机等),可据此确定冷却系统不同运行工况下各部件的功率消耗。大量数据通过智能化运维平台进行聚合、分析,调整冷却系统运行状态,为冷却系统运行适配提供建议。最终根据需求侧负荷变化,优化各部件运行状态(如压缩机转速、水泵转速、风机转速等)到系统最佳运行状态,从而降低系统能耗。

2.1 技术应用及发展

国际领先企业早在数年前就采用AI与数据中心运维相结合来优化能效、降低成本。例如,谷歌数据中心打造了专门的AI能力来自动管理其数据中心复杂的冷却设备。该项目以谷歌DeepMind AI部门在2016年首次发布的工作成果为基础,开发的机器学习系统可以收集有关冷却设备的运行数据,为工程师提供关于如何优化电力使用的建议。该系统每5 min会对数据中心内冷却设备运行参数进行“快照”,根据包括设施温度、热泵运行状态等信息来决定采取哪些措施优化电力消耗。目前,共有8种机制可以确保该系统按预期工作,如果出现问题,系统将快速回退到用于管理冷却系统的预定义自动化模式。随着时间的推移,系统收集并处理的数据越来越多,实现的节能效果也会不断提高。

近年来,数据中心相关设备厂商、大型数据中心企业开始探索将大数据、AI等技术运用于运维管理中(如提高数据采集的实时性和准确性,研究训练节能、告警等数据模型,开展故障预测等),进一步提升运维管理系统的服务能力和智能化水平[7]。国内产业界在数据中心AI节能技术上也有多项研究:中国电信与华为联合发布《PUE数字化技术白皮书》,以仿真与监测多数据交互为冷却系统提供更优建议切入,论述了数字化技术优化PUE的相关企业实践进展;开放数据中心委员会(Open Data Center Committee,ODCC)发布的《2023数据中心自适应AI节能白皮书》聚焦利用AI进行空调群控节能,从数据、算力、算法等方面进行了分析;ODCC发布的《数据中心制冷系统AI节能技术及其应用白皮书》介绍了数据中心制冷系统AI节能技术及其应用前景。

2.1.1 基于机器学习的AI节能技术

基于机器学习的智慧运维算法是依靠大数据,采用深度神经网络或深度机器学习等AI算法,通过计算机模拟训练出冷却系统运行参数与能耗和机房温度之间的数学关系,从而指导数据中心冷却系统的运维。

如图2所示,基于大数据分析步骤包括:业务模型(基于业务的分析,获取相关的业务参数,并对参数进行降维、降噪、清洗等处理);数学模型(选择适合业务的数据模型);领域算法(根据输入的参数选择可收敛的算法);实现模型(求出满足输出条件解,该解包括对于制冷能耗的预测模型以及对应业务最优的决策模型);发布模型(将预测以及决策模型发布到节能优化的平台系统中,以在线给出可以调优的决策模型);数据应用(决策模型给出系统最优调优建议,并与控制系统对接,执行调优建议)。

图2 大数据分析步骤示意图

(1)深度神经网络算法

运用深度神经网络算法,可以有效描述一个包含冷通道的数据中心气流和温度模式,将区域模型转换为状态空间模型并实时运行,因此该模型具有实时预测能力,可以控制和优化数据中心的能源利用。

以华为构建的从冷源到末端的AI能效优化能力为例,使用工况模拟仿真,模拟现网数据实现数据集的扩充、数据密度的增加,补足由于现网数据不足、质量不佳的普遍缺陷,加强模型的适应能力与可靠性。依靠大数据,采用深度神经网络算法,自动匹配精度最高的算法,并实现无码化建模。通过计算机模拟训练出冷却系统运行参数与能耗和机房温度之间的数学关系,从而指导数据中心冷却系统的运维,最终可实现PUE降低8%~12%的优化效果。

将AI建模所涉及的参数分为控制参数、环境参数和过程参数三大类,模型训练算法原理如图3所示。

图3 模型训练算法原理示意

控制参数:指系统所有可以直接设置、下发的参数,如设备运行台数、冷机出水温度设定、供回水压差设定、冷却水出水温度设定、冷却塔逼近度等。

环境参数:指对系统能耗有强烈影响,但不受系统影响的客观参数,如室外温湿度、业务负载等。

过程参数:指系统内部的一些观察参数,不能被直接控制,但环境参数和控制参数变化时,会因这些参数的改变而明显发生变化的参数,如水泵频率、水流量、压力等。

建模(构建训练):收集所有X(控制参数、环境参数、过程参数)和能耗值y,灌入神经网络,计算所有参数对能耗的系数矩阵,从而完成模型训练(主模型),同时还需要找出过程参数受哪些参数影响,使用拟合算法获取系数矩阵(子模型)。子模型不仅可以帮助提高主模型精度,还可以承载专家经验牵引,如冷却流量在什么范围内安全、节能等。

此外,可以根据项目的特点和要求,由具有专业知识背景的业务专家通过模型生成服务平台进行控制参数、环境参数和过程参数的选择,以及配置这些参数与能耗之间的连接关系用于进行模型生成和训练。

在线推理阶段,使用遗传算法或者贪婪算法根据当前时刻环境变量同时将所有控制变量组合代入训练生成的能耗-变量模型计算能耗值,选取能耗最低值对应的一组控制参数作为调优策略进行下发。推理决策步骤如图4所示。推理决策过程如图5所示。

图4 推理决策步骤

图5 推理决策过程

基于制冷能耗预测模型,获取与制冷能耗敏感的特征值,利用特征值进行业务训练、给出业务预测模型。主要是保障业务运行服务等级协议(Service-Level Agreement,SLA),如冷量保障等[8]。

最后,利用系统可调整参数作为输入,将制冷能耗预测模型、业务预测模型作为约束,利用寻优算法,获取调优参数组,然后下发到控制系统,实现制冷系统的能耗调优。

(2)深度机器学习算法

在深度机器学习算法方面,可以通过控制供回风风机、冷却盘管等,来满足送风温度和相对湿度低于热安全阈值要求的同时,最小化冷却能量(见图6)。惩罚权值有助于最优策略参数在满足其约束条件下有效收敛。可以从风冷数据中心收集元信息和真实数据轨迹,对预测模型进行训练和验证[9]。其次,使用在第一步中验证过的模型来驱动离线训练,离线训练最终完成后的模型来控制优化数据中心制冷系统实际运行。

图6 深度机器学习算法流程

深度强化学习可应用于联合IT设施的优化,包括负载感知的目标冷却、任务调度与IT设备优化,旨在提高能源效率,同时确保数据中心热安全。负载感知以响应动态IT工作负载,控制分配供风温度和流量为目标;任务调度,即完成在热动力学约束条件下优化调度IT工作负载分配;最终联合控制IT和制冷系统,使其达到理想的平衡,降低能耗,实现IT设施的优化,提高能源效率。

2.1.2 基于物理模型的AI节能技术

基于物理模型的智慧运维算法需首先建立冷却系统的传热和能耗模型,再依靠智能寻优算法以运维目标求解出各设备运行参数,从而实现对系统的调优。

腾讯在数据中心冷源系统AI调优上进行了实践应用。基于深度神经网络和支持向量回归算法构建设备模型,通过选择合适的激活函数、调整损失函数以及限制权重参数范围等方式增强模型的可解释性,使得构建出来的模型满足暖通物理原理。例如,在冷机功耗预测模型中,参考《美国采暖、制冷与空调工程师学会应用手册》提出的冷水机组能耗模型表达式,将冷机冷冻侧温度、冷却侧温度以及IT负载等变量作为模型的输入参数,中间用全连接层连接网络模型,并使用线性整流函数激活函数拟合变量间的非线性关系,最终预测冷机功耗(目前模型的预测偏差可以控制在3%以内)。

同时,使用安全沙箱设置寻优约束准则,即安全沙箱所有的约束条件、配置都可以开放给现场的运维专家(见图7)。有了安全沙箱机制后,可实现AI逻辑受控和配置自由。

图7 安全沙箱原理

2.2 数据中心AI节能系统部署趋势

数据中心AI节能系统在实践中由集中式部署逐渐向“中心+边缘”部署模式演进。中心节点对应冷源侧控制设备及软件平台,以数据中心为单元部署,通过多活模式实现节点高可用。边缘节点对应末端控制设备及软件,以机房为单元部署。节点支持海量数据采集与指标分析处理,同时兼容多种采集协议与接口。各节点通过网络互联,支持相互冗余,保障AI节能系统稳定运行。中心节点与边缘节点存在主/从关系,中心节点负责数据中心冷源与末端联合建模,系统寻优,对冷冻站下发优化策略。边缘节点负责末端空调建模、热量预测,对末端下发优化策略。

3 建议与展望

3.1 推动标准编制,凝聚多方共识

坚持以新一代信息技术为驱动,依托ODCC等行业组织和高水平平台专业作用,加强产、学、研、用沟通合作,加快AI创新节能技术攻关、标准研究及应用推广步伐,支撑数据中心全生命周期绿色低碳发展战略目标。加快数字仿真、智能调优等技术基础研究和创新实践,为相关企业在数据中心设计、建设、改造项目的实施与科学决策提供标准依据。

3.2 征集测试试点,推广高价值实践经验

进一步验证标准的科学性和可操作性,广泛征集数字仿真、AI调优等建设运营阶段数据中心项目测试试点,鼓励AI、大数据、数字孪生等新一代信息技术与数据中心运维工作深度融合,全面、准确、客观度量数据中心节能效果,树立标杆企业,探索并形成可复制、可推广的路径模式、宝贵经验和典型案例,促进全行业绿色可持续发展。

3.3 优化咨询服务,支撑数据中心绿色算力发展有序升级

以AI调优测试、节能改造测试丰富地方项目咨询服务,帮助地方政府、重点行业主管部门明晰当前区域、行业数据中心节能发展的能力优、劣势,鼓励各类数据中心通过节能改造、优化改造、智能运维等方式,解决数据中心项目因高能耗面临的关停、合并等问题,支撑各地区、各行业数据中心绿色算力发展有序升级。

4 结束语

一方面,基于机器学习算法对数据的依赖度较高,要求训练数据集尽可能包含各种运行工况,否则容易出现超出训练集计算结果不准确的问题。同时,基于机器学习算法可以摆脱对冷却系统本身物理特性的分析,适合于复杂的大型系统或冷热电联产等复合系统。另一方面,依靠大数据模型分析方式也面临着模型泛化性局限以及可解释性较弱的问题。因此,可以根据数据中心自身特点尝试不同的AI技术方案,同时支持日益增多的架构场景。另外,在AI技术的发展中,单一制冷系统的优化也有其局限性,未来会向跨层联动节能演进,与IT基础设施共同构建模型,避免因制冷能耗的降低使IT功耗增加,从而形成整体多系统节能技术,真正促进数据中心整体能耗降低。

猜你喜欢
冷却系统数据中心运维
酒泉云计算大数据中心
新型中厚板快速冷却系统研发
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
民航绿色云数据中心PUE控制
杂乱无章的光伏运维 百亿市场如何成长
DX-600发射机冷却系统维护
基于ITIL的运维管理创新实践浅析
浇铸循环水冷却系统的应用
基于云计算的交通运输数据中心实现与应用