内蒙古地区数据中心热量管理的挑战和对策

2024-03-26 04:19李丹阳白丽丽姜静清
关键词:东数内蒙古地区液冷

宋 杰,李丹阳,白丽丽,姜静清

(1.东北大学软件学院,辽宁 沈阳 112000;2.内蒙古民族大学计算机科学与技术学院,内蒙 古通辽 028043)

作为“东数西算”工程的重要实践地区,内蒙古数据中心的绿色经济运行的相关研究广受关注。数据中心的相关研究主要分为节能和性能提升两方面。数据中心的热量管理一方面可以从减少制冷能耗的角度节省能源,另一方面热点均衡可以促使数据中心的性能提升,因此内蒙古地区数据中心的热量管理对于该地区数据中心的可持续发展尤为重要,然而现有研究通常面向理想的数据中心,未能考虑内蒙古地区的实际情况。笔者分析内蒙古地区数据中心产业在热量管理上所面临的挑战与困难,尤其对整体空间布局、建模与控制策略和仿真实验平台等进行重点分析,并从区域实际情况出发,提出对策建议。

1 内蒙古地区数据中心热量管理研究的意义

在2020年9月召开的第75届联合国大会上,习近平主席提出了“二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和”的“双碳”目标[1],中共中央、国务院印发的《数字中国建设整体布局规划》更是着眼于数字化产业的稳定性。为了实现“双碳”目标和数字中国,2022年3月,中华人民共和国第十三届全国人民代表大会第五次会议提出,实施“东数西算”工程。“东数西算”工程是把经济发达的东部地区(如上海、杭州等地)高度集中的算力需求有计划地引导到经济较为落后的西部地区(如内蒙古地区)。“东数西算”工程将算力作为资源,把数据作为生产要素,让算力与数据跨域流动,打通算力资源的地域局限,既缓解了东部能源紧张的问题,也给西部能源丰富、经济落后的地区开辟一条新的发展之路。“东数西算”不仅优化了数据中心的算力和供能结构,还促进了东西部协同联动。

内蒙古自治区大数据发展管理局数据显示,作为“东数西算”工程的重要实践地区,目前内蒙古地区数据中心服务器装机能力超过100万台,居全国首位,具有巨大的研究潜力。尽管全自治区数据中心的总装机量超过35 万台,综合利用率超过40%,数据中心市场化程度大幅提升,但仍有很大的发展空间。热量管理可以实现温度场平均分布、减少热点、降低制冷能耗[1],为实现“双碳”目标和数字中国开辟了新的思路。

2 内蒙古地区数据中心热量管理的相关研究

数据中心温度分布不均匀是数据中心运行中必然产生的现象[2]。在实现“双碳”目标和数字中国过程中,内蒙古地区数据中心的热量管理面临许多挑战。内蒙古地区数据中心对“双碳”目标和数字中国的支持情况见图1。从静态环境的角度分析:由于硬件设备的局限性和空间布局等不可变因素,会造成数据中心的热量在某些节点或某些位置积累[3];从动态环境的角度分析:数据中心所处的外部环境,如温度、湿度、日照、风力等,会周期性地发生改变。这些会使数据中心的散热能力并不完全恒定,而数据中心内部的服务器的利用率会随着用户任务的变化而变化[4],这也会使数据中心热点产生的位置难以控制,因此大量研究均聚焦于数据中心的硬件设备、空间布局和数据中心相关环节建模对数据中心热量的影响。

图1 内蒙古地区数据中心对“双碳”目标和数字中国的支持Fig. 1 The support of Inner Mongolia regional data center for the“double carbon”target and digital China

为了消除数据中心的热分布不均现象,通常会对数据中心的硬件设备进行布局优化并对其调控方法进行优化。数据中心的热量管理包括对服务器和空调的更新与排布,或对温度、气流等物理参数进行管控等[5],为了验证模型和控制方法的合理性和有效性,研究人员通常会使用一些模拟平台对所提方法进行测试[6],下面具体分析现阶段的相关研究进展。

2.1 内蒙古地区数据中心的硬件设备与空间布局

数据中心最主要的用电设备是提供算力的服务器及其所需的制冷设备[7]。服务器的型号和机架的空间布局直接影响服务器工作时的散热效果,对数据中心热量管理有较大的影响。制冷设备根据制冷方法分为空调、风扇和液冷等3种方式[8]。

通常情况下,数据中心在规划投建之前就已经由专业人员根据现场情况、地理特性和算力需求等确定了服务器型号、机架的位置和制冷设备的种类。根据内蒙古地区独有的自然环境,多采用空调制冷搭配冷水液冷的机制。事实上,由于内蒙古地区可再生能源较为丰富,空调的用电量和液冷的布局策略较为欠缺。随着“东数西算”和数字中国的不断发展,对电力和低碳的需求也将日益增加,内蒙古地区数据中心内部的硬件设备和空间布局策略也将面临挑战。

2.2 内蒙古地区数据中心的建模与调度策略

在研究数据中心热量管理时,制冷模型、热量模型、功率模型和负载模型是最为关键的模型[9]。现有研究对这些模型已有较为完善的分析和说明,但是由于制冷方式的独特性和东部数据负载的灵活性,现有的制冷模型、热量模型和负载模型并不完全适用于内蒙古地区的数据中心。考虑到内蒙古地区的能源特性和制冷机制,其调度策略也将更加灵活和丰富,内蒙古地区数据中心的建模与调度策略同样面临挑战。

2.3 数据中心热量模拟的方法和平台

由于真实的数据中心环境难以获得,研究人员广泛使用模拟实验来评估热量管理方法。许多文献都使用知名的模拟器来评估他们的工作[10],如CloudSim、Matlab、6SigmaDC 以及广泛使用的Fluent,具体占比见图2。

图2 最新的数据中心研究中包含各种模拟器的比例Fig. 2 The proportion of each inclusive simulator in recent studies on data center

这些现有模拟器在对数据中心热量进行模拟时,大体分为3类。第1类着重数据中心运行状态模拟,在其中加入热模拟工具包,如CloudSim,第2类使用数据中心的运行结果着重热量模拟,如Fluent。它们都不是针对数据中心热量模拟而开发的专用模拟平台。第3类将数据中心的热量模拟完全转化为数学问题,使用如Matlab一类数学模拟平台进行模拟。数据中心热量模拟平台,需要根据数据中心的运行状态的变化对数据中心内部的热量变化进行模拟。开发一个用于模拟数据中心热量的模拟平台,不仅是研究内蒙古地区数据中心的需求,更是未来解决数据中心热量管理相关难题的途径。

3 内蒙古地区数据中心热量管理的应对策略

数据中心的可持续发展,一方面是能源的可持续性,另一方面是数据中心规划和建设的可持续性。绿色可持续数据中心的建设涉及建筑物主体的规划和布局、散热冷却材料的筛选制备、供配电系统优化降低损耗和安全控制系统更新升级等一系列技术。建设一个绿色可持续的数据中心,需加大科研投入和多领域共同发展,从相关材料的研究与创新,到适配服务器的各项硬件设备和软件方法的升级,各个关键环节都需同步推进。要组建有内蒙古区域特性的核心技术科创产业链,有侧重地突破技术壁垒,打破各个产业之间的瓶颈,牢牢把握创新发展主动权,促进绿色数据中心设备的研发、生产、建造,实现自主产业化,提升数据中心行业核心竞争力。

3.1 优化数据中心设备布局,合理规划散热冷却机制

内蒙古地区数据中心根据自身的地理位置,分布确定了散热冷却设施的类型和方法,并提出了适时技术应用方案。由于内蒙古地区独有的温度及能源环境特征,助力了风冷技术与液冷技术协同发展,又由于内蒙古地区可再生能源发电能力充沛,并且地价低廉、空气清洁,满足新风制冷环境要求,适合配备新风制冷设备,符合绿色高能效发展趋势,但由于空气本身热导率低,不利于高功率密度的服务器的制冷,从成本角度出发,内蒙古地区数据中心还应尽量多采用液冷设备作为制冷设施。

在我国,服务器的液冷设备研发仍处在起步阶段,采购成本偏高、渠道少。其中,液冷服务器冷却介质成本高是液冷服务器不能大规模推广的最重要原因。同时,数据中心所需电子元器件的兼容性低等问题也十分严峻。对此,一方面要提升液冷相关设备的改进与研发;另一方面,也要针对液冷和空气制冷结合的研发思路,提出优化调控策略,实现双管齐下。

3.2 注重清洁能源利用,优化运行调度策略

数据中心内部服务器常进行大规模的数据存储与运算,因此数据中心属于高耗能产业。内蒙古自治区具有充沛的风能、光伏,利用这一类可再生能源产生的电能可以充分应用于数据中心之中[11],助力数据中心的可持续建设。由于可再生能源发电具有间歇和不稳定的特点,优化数据中心的能源供应来源和供能比例是实现数据中心节能降碳直至碳中和的关键。科学的调度方法可以优化数据中心的电力结构,逐步提升“绿电”的比重,是数据中心绿色可持续的必经之路。此外,数据中心在计算耗电的同时也会产生大量的余热,研究人员可以考虑将数据中心产生的余热进行二次利用,如为冬季供暖提供热源,或与转化为其他种类的可用能源进行循环利用。

3.3 开发数据中心热量模拟仿真平台,助力数据中心热量管理产业健康发展

理想的数据中心热模拟器应该是功能齐全且易于应用的,笔者对未来的模拟器提出了展望。

3.3.1 注重数据中心运行状态模拟

数据中心热研究的趋势,从静态环境转向动态运行状态调整。仅研究静态数据中心会隐藏数据中心热设计的一些缺陷,导致中心运行时无法根据动态数据(如工作负载、资源使用情况和功耗)进行优化。如果研究人员改变服务器的资源使用分布,热分布也会相应改变。数据中心模拟器应该充分突出资源管理功能,以支持这种趋势。

3.3.2 具备轻量级的热模拟

在数据中心的热模拟中,需要反映各个部分的热环境,它如何随运行而变化,优化效果如何,这是需要解决的一个问题。热分布不一定在时间和空间上以非常细的粒度进行建模和模拟,例如不能期望资源调度器能够立即显著地影响热分布,因为运行状态和热条件都不稳定。复杂的CFD 计算通常需要强大的计算资源来模拟详细和实时的热动力学状态,这种对灵巧性和硬件需求会大大增加投资成本,但模拟结果可能对研究没有实际意义。理想的模拟器应该具备轻量级的热模拟,在时间和空间上粒度都很粗,易于建模和执行,对硬件的要求更少。

3.3.3 具备人工智能集成仿真功能

人工智能已经改变了世界,并在社会、经济和治理方面取得了重大进展。在许多领域,人工智能可以让人、社区、机器和计算机协同工作,并做出巨大的改进。绿色数据中心的人工智能热管理通常利用神经网络对数据中心内部温度进行预测,可以提前对温度进行限制,达到良好的热平衡。人工智能可以轻松实现其他方法难以实现的目标,因此理想的模拟器应该集成AI,例如它可以支持流行的人工智能平台,支持深度神经网络和深度强化学习等人工智能模型的部署和执行环境。人工智能集成模拟器使研究人员能够在模拟案例中运行基于人工智能的优化。

3.3.4 具备大规模异构跨区域数据中心模拟能力

一方面,异构数据中心可以将各种计算资源聚集在一起;另一方面,将跨区域数据中心连接起来,形成一个联合体,可以高效地为跨区域提供服务。

4 总结

数据中心的热量管理是技术问题,更是实现我国东西产业区域平衡和数字经济发展的重要路径。笔者从区域特性和科研技术相结合的视角阐述了内蒙古地区数据中心热量管理的意义,分析了内蒙古地区数据中心的发展现状及存在问题,具体从硬件设备、空间布局、调度方法以及仿真平台等方面提出应对策略,为实现“东数西算”提供具体路径,希望对实现“双碳”目标和数字中国起到指导作用。

猜你喜欢
东数内蒙古地区液冷
厌氧胶在液冷板缺陷修复中的工艺技术
制动器液冷控制系统模糊控制策略
东数西算
“东数西算”能为我们算出怎样的未来
“东数西算”,亿万蓝海
“东数西算”全面启动
第十三届中国音乐金钟奖内蒙古地区选拔赛
航天服的液冷服有什么用?
航天服的液冷服有什么用?
内蒙古地区蒙古族常用野生植物相关传统知识研究