云边端融合的算网架构在智慧园区中的应用研究

2024-03-13 12:19宋今张河翔
信息通信技术与政策 2024年2期
关键词:算力路由架构

宋今 张河翔

(1.中国移动通信集团有限公司,北京 100032;2.中国移动通信集团重庆有限公司,重庆 401121)

0 引言

当前,各地智慧园区建设如火如荼,人工智能(Artificial Intelligence,AI)、云计算、边缘计算、大数据、物联网、数字孪生等信息化技术在各类型产业园中持续应用。值得关注的是,智慧园区中信息化系统重复建设、“信息孤岛”以及缺乏算力统一调度的情况并不罕见。近年来,随着AI等技术的快速迭代,园区对各类AI大模型、通用视频图像分析、数字孪生等高算力要求的应用需求越来越大。因此,相对低水平的算网调度体系与越来越高的算网需求之间形成了新的矛盾,并已成为制约园区智慧化、数字化水平提升的关键所在。

本文认为,云边端融合的算网调度体系将逐步成为突破智慧园区发展瓶颈的核心数字底座。中国信息通信研究院研究报告显示,算力由云端加速向边侧、端侧扩散,边端计算能力持续增长。如何将智慧园区已有的云端算力、边缘算力、前端算力进行联通,同步实现算力与网络结合,打造出云边端融合的算网架构体系,成为事关新型智慧园区数字化转型成败的关键。

1 智慧园区算网现状分析

1.1 园区特点分析

本文调研了分布于重庆、四川、浙江、宁夏4地13个不同类型(含工业类、科创类、医疗类、文旅类、港口类、物流类等)且处于建设中的智慧园区,发现在园区管理上普遍有占地面积大、入驻企业多、建设周期长、管理部门多、信息化需求大等特点,在园区信息化则面临着算力和网络需求大、数据协同难度大、需求种类多、重复建设多、“信息孤岛”等问题。

1.2 园区算力需求分析

经调研发现,13个智慧园区的信息化需求存在共性需求和特色化需求,但最底层的算力需求基本趋同,即对算力的需求愈发旺盛,需要更智慧的算力网络(见表1)。

1.3 园区算力现状分析

本文分析13个智慧园区的算力现状后(见表2),发现以下4个共性问题。一是园区普遍租用了不同云提供商的云服务;二是园区普遍具有可视化指挥展示中心,需要对数字孪生模型等进行渲染;三是园区各类自建小机房遍布,甚至一些弱电设备间也放置了服务器;四是园区终端侧算力鱼龙混杂,传统终端和智能终端并存。

1.4 园区网络现状分析

网络是实现智慧园区算力调度的基础。调研发现,网络的复杂现状对实现园区数据协同提出了更高要求(见表3)。各园区网络涵盖类型复杂,包含内网、互联网、电子政务外网、数据专线、固定电话、5G/4G网、无线局域网(Wireless Local Area Networks,WLAN)等。多数园区由于规划不足,尚未实现“一张网”统领,且各种局域网、外网、专网协同不充分。此外,园区支持软件定义网络(Software Defined Network,SDN)及网络功能虚拟化(Network Functions Virtualization,NFV)的智能化设备占比低,网络智慧化程度不足,但是也有少数园区正在实现“一张网”统领,使用了支持SDN技术的融合网关类产品,园区网络的智能调度初见雏形。

表3 园区网络特点

2 云边端融合的算网架构

基于园区越来越高的智能算力需求与算力和网络普遍不足的现状之间存在的矛盾,本文将进一步提出更适用于智慧园区未来各类智慧化需求的云边端融合算网调度体系[2],研究以云边端融合的算网架构助力园区现有算力和网络,在新增投资有限的基础上,用较小的升级改造成本提升园区智慧化水平[3]。

2.1 园区云边端融合的算网融合架构关键技术

2.1.1 园区算力网络基础设施摸底及感知

对算力和网络等基础设施进行摸底、分类、感知,是搭建云边端算网融合架构的基础工作。常见的算力摸底及感知,应首先分析园区当前及规划中的算力及网络的基本情况(见表4),包括但不限于算力资源分布的位置在云端还是本地,算力适合通用计算还是专用计算,算力当前可用状态及当前负载情况;网络的承载形式、时延、带宽利用率等。

表4 园区算力网络等基础设施摸底

2.1.2 园区算力度量及简易标识

算力摸底后,需进一步对园区算力进行分类度量和标识[4]。通常,可根据处理对象不同,将园区算力分为通用算力和专用算力,同时在硬件层面也存在不同的异构芯片与二者对应,如CPU作为通用算力的代表更擅长进行常规计算,而GPU/DPU/TPU等专用算力代表更擅长AI计算等[5],需要区分对待。

解决异构算力的度量及标识问题是业界一大难题,但对于园区而言,其算力规模和算力需求相较大型云服务商和运营商的数据中心而言更加简易,在算力的度量和标识上相对简单。本文主要考虑园区普遍使用的通用算力(不考虑园区存在少量的异构算力),将基于X86架构的CPU算力和园区普遍需要的用于视频图像分析的GPU算力作为度量重点;将园区刚需算力的单位统一换算成每秒能完成的浮点运算次数(单位:FLOPS);并将其他诸如服务信息、位置信息、算力需求、带宽需求等信息同时进行标注,为后续的算网解析以及不同节点间的调度提供依据。为确保这种园区简易标识的有效性,一般需在园区规划设计时进行明确。

2.1.3 云边端算力协同

云计算、边缘计算以及各类终端前置算力各有其特点和适应场景。如终端功能单一但能耗更低;边缘侧算力时延更低,可做到数据不出园区;云端则拥有强大的计算、存储资源但位置远离园区。云边端协同可通过云上、边缘、终端在算力上的互补,提升算力效率,但若“各自为战”,或导致多数复杂应用场景无法实现,以及诸多资源浪费和重复建设问题。

在当前大部分园区都在降本增效的经济背景下,实现云边端融合的算力调度显得迫在眉睫。云边端协同后,园区的智能终端除可将感知数据传给边缘侧外,还可根据指令直接进行简易计算,效率更高;园区边缘计算更接近应用现场、时延更低,可初步处理执行云端的下沉任务,同时又为云端筛选出更科学和更有价值的数据;园区云端可依托更丰富的算力、存力等,实现更优的业务应用模型构建和全局管理,如在进行AI深度学习模型的训练时,将训练好的结果下发到边缘端,让边缘端更快速执行推理等动作,同时在云端进行海量和长周期的数据存储、大数据的挖掘分析工作等[6-7]。

2.1.4 园区算力融合及简易算力路由

算网融合是算力和网络后续发展趋势。与传统网络和传统算力相比,算网融合后的算力网络可同时分析算力开销和网络路由开销,并依据网络和算力两个维度综合判断出最优调度规则,解决了传统算力调度中“重算力、轻网力”的问题。算力网络的一个关键技术是算力路由。早在2018年,中国移动就牵头提出了“算力路由”的概念[8],并在标准制定和应用推广方面取得重大进展。算力路由在以往单一网络寻址的基础上,叠加算力信息进行联合路由,改变了传统网络的路由方式。但是,由于改造成本大、标准尚未统一等原因,当前算力路由尚未规模化普及。

然而,聚焦于园区更简易的组网范围(相较于运营商的庞大网络而言),算力路由能以相对简单的方式落地。实现园区级简易算力路由主要取决于两点。一是确保园区算力的协同。如前文所述,当前影响园区算网底座发展的一个核心痛点是园区算力分布复杂且算力协同不足。完成算网情况摸底后,需立即对园区网络进行统一改造,实现各个算力节点的协同,如通过园区内网协同实现边缘算力节点之间的协同,云专线实现边缘节点与云端节点间的协同。二是应用基础的算力路由技术。可通过在园区关键节点添加算力路由器或者融合调度网关的方式来搭建园区级简易算力路由体系(如图1所示)。

图1 园区算力协同及简易算力路由示意图

2.1.5 园区算力网络简易编排器

实现算力网络的融合调度还需要一个“算网大脑”进行统一编排。“算网大脑”多见为运营商级别的核心算网融合编排系统。但对园区而言,其算力网络相对简易,没有足够资源及需求驱使其建立运营商级别的、完整的算网编排系统,因此,一种适用园区应用的简易算力网络编排器应运而生。这种简易编排器是园区实现算网调度的中枢,可清晰展示出园区算力与网络的分布、标识、状态等信息,并通过简易的算力路由进行调度,进而对整个园区的算力资源(包含租赁的云服务资源)进行统一的标识、解析及调度[9]。

当前,大部分园区尚无能力开发自己的简易算网编排器,可暂时通过主流设备厂商提供的算网融合调度网关等硬件产品逐步展开简易的算网编排调度工作,从手动编排的方式开始,逐步向订单式编排甚至智能化编排的方向持续演进。

2.2 园区基于云边端融合的算网架构

通过园区云边端算力基础资源摸底和感知、算力资源协同、园区级简易算力路由、云边端算力协同、简易的算网融合编排器等系列技术的运用,一套基于云边端融合架构的算力网络调度架构基本成型(见图2)。这个算网架构可获取园区当前可用的算力、存力、网络等资源以及其在云边端分布情况,并可初步实现算力网络的灵活调度[10]。例如,园区可结合具体应用需求,同时或分阶段使用云边端的算力资源,并根据不同的算力需求特点进行高效调度。同时,这种算网调度体系可根据当前可用算力的情况、网络负载情况,动态地计算出更优调度策略,如实现先来先计算、最高优先级计算、保密计算、最低时延计算等。

图2 云边端融合的算力网络调度架构

这种园区级云边端算力网络融合架构,可以根据园区自身算网基础,采用手动调度、订单式调度、智能化调度的方式实现。这些调度不是一成不变的,可根据业务属性的不同保障等级、不同时延要求、不同频率要求等进行动态调整。

3 云边端融合的算网调度架构赋能某智慧园区

3.1 园区算网特点

以重庆某面积近10 km2、当期信息化投资约5 000万元规模的智慧园区项目为例,本文进行了云边端融合算网调度体系的应用研究及落地,在多个应用场景取得了较好的效果。该园区拥有1个边缘数据中心、9个在不同时期配套信息化系统自建的小型数据机房、7种网络承载形式(含互联网专线、数据专线、5G专网[11]、物联网等)。该园区也是国家级车联网先导区组成部分和西部重要的科技创新示范高地。

3.2 园区改造后的基于云边端融合的算网架构体系

首先,园区通过网络改造实现了“一张网”统领,算力资源的全面摸底及统一的标识,并达成了云边端算力资源全面的协同(见图3)。

图3 某智慧园区算力和网络拓扑图

同时,该园区充分考虑应用特点、算力实际情况、建设维护成本和未来扩展性等因素,将园区应用和云边端算力进行精准匹配(见图4)。根据终端是否具有算力,在终端侧分别进行数据采集或简易计算处理;在边缘数据中心部署了一些关键系统,用于对实时性和保密性要求较高的数据进行处理,如GIS/BIM系统、视频分析平台、物联网平台等;在云端,则通过强大的算力等资源进行AI模型训练、大容量数据存储、海量数据汇集后的挖掘分析等。

图4 某园区云边端协同算力应用对应分布图

3.3 园区基于云边端融合算网架构的关键算网应用

通过算网融合调度,该园区聚焦痛点问题,实现了十几项关键算网应用落地。如通过在本地边缘数据中心部署轻量化的GIS/BIM系统,园区内可随时随地使用基于GIS/BIM系统的智慧规建等应用,低时延快速操作各种大型BIM模型文件(见图5)。此外,在云端为该园区量身定制了科研政策AI分析器,每天自动抓取全行业政策性网站的公开政策信息,匹配不同科研需求向科研人员推送政策通知日历,包括各类政策申报条件、起止日期等信息(见图6),获得了园区科研人员的一致好评。

图5 在边缘数据中心部署的GIS/BIM系统截图

图6 使用了云端算力的科研政策AI分析器截图

同时,为针对性解决园区存在缺少带算力的场景化智能摄像头、本地边缘侧算力不足以及园区的视频分析需求大且变动多的视频分析痛点(见表5),园区建设了视频图像智能分析平台。通过云端训练、本地推理、终端感知的方式实现了云边端协同的算网融合调度,以相对较低的成本实现了对园区图像、视频的快速分析处理(见图7)。

图7 视频图像智能分析平台云端训练、边缘推理示意图

表5 某园区视频分析需求情况

当前园区实现了人员聚集、人员是否佩戴安全帽、按楼栋统计到访人数等26种分析算法。视频分析平台算法及分析报警界面在园区应用情况如图8和图9所示。

图8 某园区视频智能分析平台算法

图9 某园区视频智能分析平台

未来,该园区将对部分云端AI训练模型进行科学裁剪,在训练提速同时,使其卸载至边缘侧时能更高效地实现推理分析等功能,更敏捷响应园区快速迭代的视频分析诉求。

4 结束语

基于云边端融合的算网架构充分发挥了算力调度、算网融合、云边端融合、AI、大数据等技术的优势,深入解决了园区当前普遍存在的算力分散、终端多样、网络复杂、应用众多、协同不足等痛点,将智慧园区在多年建设中产生的分布在云端、边缘侧、终端侧的存量算力资源进行协同,并实现统一管理。同时,结合简易的算力路由、算网融合编排等技术,让算力的调度更加灵活和高效。经实践表明,云边端融合的算网架构能够助力智慧园区实现数字化转型,并成为智慧园区降本增效、持续迭代优化的坚实数字底座。

猜你喜欢
算力路由架构
多方求解智能时代算力挑战
这个第二不一般
卫星通信在算力网络中的应用研究
基于FPGA的RNN硬件加速架构
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
功能架构在电子电气架构开发中的应用和实践
探究路由与环路的问题
LSN DCI EVPN VxLAN组网架构研究及实现
一种基于FPGA+ARM架构的μPMU实现
PRIME和G3-PLC路由机制对比