网络遥测技术及其在网络自动化运维中的应用

2021-03-11 07:38毛东峰贾曼何晓明刘志华
电信科学 2021年2期
关键词:网络设备遥测报文

毛东峰,贾曼,何晓明,刘志华

工程与应用

网络遥测技术及其在网络自动化运维中的应用

毛东峰1,贾曼1,何晓明2,刘志华2

(1. 中国电信集团有限公司,北京 100032; 2. 中国电信股份有限公司研究院,广东 广州 510630)

网络遥测作为近年来不断发展的一种新的数据采集技术,极大地丰富了采集数据的多样性,拓展了传统OAM数据采集范围,其目标是实现实时的全局网络状态可视和流量可视。通过与大数据和AI技术相结合,减少人工干预,提升网络自动化运维水平。首先分析当前IP网络运维面临的问题和挑战,然后阐述网络遥测技术是实现网络自动化运维关键使能技术,在此基础上研究和探讨网络遥测技术在运营商IP网络自动化运维中的应用,为运营商大规模IP网络的自动化运维提供参考和指引。

网络遥测;自动化运维;OAM;主动测量;混合测量

1 引言

5G时代蓬勃发展的各种新业务对网络质量提出了更高要求。以4K/8K超高清视频、虚拟现实(VR)/增强现实(AR)为代表的增强移动宽带(eMBB)业务要求网络提供足够带宽、稳定时延和丢包率保障,以面向工业互联网、无人机控制、自动驾驶等应用的超低时延高可靠性通信(uRLLC)业务对时延、抖动和丢包率提出了更加严苛的要求[1-2]。运营商的经营模式也从粗放式的销售网络带宽到精细化销售服务体验转变,如何保障用户的服务体验将是承载网面临的一大挑战。传统网管系统一方面无法从纷繁复杂的告警信息中快速精准定位故障,另一方面也无法实现实时的网络可视和流量可视,适时进行网络扩容和优化调整。运营商需要变被动运维为主动运维,及时发现潜在故障和服务质量劣化迹象并消灭于萌芽状态。IP承载网的自动化运维成为运营商提升网络价值的重要利器。近年来,网络遥测(network telemetry)技术和人工智能(AI)已成为网络研究热点,有望成为实现网络智能化和自动化的关键使能技术,一些业界领先的电信设备制造商也相继推出基于网络遥测的自动化解决方案。

5G承载需要满足eMBB、uRLLC、mMTC多业务差异化需求,对IP承载网服务质量提出了更高要求。基于网络遥测+AI技术的IP网络自动化运维能够精准定位网络故障,及时主动发现网络拥塞、时延、丢包等问题,很好保障5G时代大量时延、丢包敏感性业务体验。网络遥测技术已成为当前业界研究和应用的热点,全球主流网络设备制造商、运营商及个人已经向互联网工程任务组(IETF)等国际标准化组织提交了大量的工作组草案和个人文稿。

2 当前IP网络运维面临的问题和挑战

随着大数据分析和AI技术逐渐成熟并步入商业化应用的快车道,网络界自然想到应用这些技术解决网络自动化运维,进而实现网络智能,最终达到网络自治终极目标。运营商希望借助于大数据+AI技术来预测和发现网络潜在故障、安全隐患、性能指标、健康状态等运行趋势。运营商拥有的超大规模网络以及海量用户流量无疑为大数据分析和机器学习提供了足够的数据样本。 一方面,从海量的网络数据中发现网络故障、网络异常、网络策略违背以及预测未来事件的发生;另一方面,这些网络数据可以应用于网络规划、入侵防御、网络优化和自愈等网络策略更新。可以想象,基于意图驱动(intent-driven)的自动驾驶网络是继软件定义网络(SDN)之后网络演进的又一次飞跃,其目的在于减少甚至消除人工对网络的干预,并使得网络资源提供更高效、更贴近客户需求的优质服务。

由于大数据+AI技术使得数据处理能力得到了极大改善,应用对数据的饥渴正变得急迫。然而,当前网络却缺乏从网络中提取有用且可操作的网络数据的能力,系统瓶颈正在从数据消费转移到数据供给。随着网络规模和流量带宽的快速增长,网络配置和策略的改变正变得比以往任何时候更为敏捷。更多不易觉察的细微事件以及更细粒度的数据需要通过网络各层面实时捕获和导出。简而言之,当前网络正面临如何高效、实时、灵活地获取足够多的高质量的运行、维护和管理(OAM)数据的挑战。

列举网络运维5个基本的应用场景,以凸显网络OAM数据在速度、多样性、容量和真实性方面的要求[3]。

(1)网络策略合规和意图遵从。网络策略是限制网络接入服务,提供服务区别对待,或对流量实施特殊处理。例如,业务功能链(service function chaining,SFC)是为选定的流通过一组有序的网络功能的策略。而意图是一种高层抽象策略,在应用于网络之前需要进行复杂的翻译和映射过程,在应用于网络之后需要验证网络配置符合真实意图。网络策略在执行过程中需要对合规性进行持续的验证和监控。

(2)SLA合规性。服务水平协议(service level agreement,SLA)定义了用户期望网络运营商提供的服务水平,包括服务监测度量和服务水平未达到协议时的补救/惩罚程序度量。用户需要检查运营商是否按照承诺获得了服务,网络运营商需要评估如何交付能够满足SLA的服务。

(3)根因分析。从大量相关或无关的故障告警信息中如何快速精准定位故障,如何快速定位报文丢失位置,网络在哪个节点发生拥塞时产生的时延变化。尽管机器学习技术有助于根因分析,但是需要网络提供足够与故障关联的OAM数据。

(4)网络优化。包括负载平衡、流量工程(traffic engineering,TE)和网络规划等涵盖短期和长期的网络优化技术。网络运营商为了提高投资回报率(return on investment,ROI)或降低资本支出(capital expenditure,CAPEX),有动力优化其网络利用率并为客户提供差异化服务。在应用网络策略操控流量前需要了解实时网络状态。比如,短时网络调整需要在一个极短的时间内检测网络微突发,进而应用细粒度的流量控制来避免网络拥塞,而长期网络容量规划和网络规模扩容也依赖于网络运行维护累积的大量OAM数据。

(5)事件跟踪与预测。用户流量路径和性能的可视性对于网络的健康运行至关重要。运维人员通过从大量相关的网络事件中跟踪、发现并预测故障。例如,网络运营商总是希望了解业务流的数据包被丢弃的位置和原因,他们还希望提前得到有关问题的告警,以便采取积极行动,避免发生灾难性后果。

长期以来,网络运营商依靠简单网络管理协议(simple network management protocol,SNMP)、命令行接口(command line interface,CLI)或者系统日志(system log,Syslog)监控网络。其他一些OAM技术如IP ping、IP traceroute、双向转发检测(bidirectional forwarding detection,BFD[4])、多协议标签交换(multi-protocol label switching,MPLS) OAM[5]、单向主动测量协议(one way active measurement protocol,OWAMP[6])/双向主动测量协议(two way active measurement protocol,TWAMP[7])也被用来帮助定位故障。这些传统技术还不足以支持上述应用场景,原因如下。

(1)大多数应用场景需要持续地监视网络,并实时和交互地对数据收集工具进行动态微调。基于SNMP轮询的低频数据收集不适合这些应用。从数据源(例如转发芯片)直接推送流式数据的订阅模式在提供数据量的规模和精度上更有优势。

(2)采集数据的丰富多样性,包括从包处理引擎到流量管理器,从线路卡到主控板,从用户流到控制协议包,从设备配置到网络运行,从物理层到应用层。传统OAM只覆盖很窄的数据范围(例如SNMP只处理来自管理信息库(MIB)的数据),传统网络设备也不能提供各个层面必要的探针。为了满足多层次的数据采集,现代网络设备需要具有开放、可编程的网络能力。

(3)许多应用场景需要关联来自多个源(即来自多个网络设备、同一网络设备的不同部件或不同网络平面)的网络范围的数据。单一的解决方案通常缺乏整合来自多个源的数据的能力,自动化的资源控制体系结构(automated resource control architecture,ARCA)[8]提出了一个完整的综合解决方案。

(4)一些传统的OAM技术(如CLI和Syslog)缺乏标准的数据模型。非结构化数据阻碍了工具的自动化和应用程序的可扩展性,因此,标准化的数据模型对于支持可编程网络至关重要。

(5)尽管一些传统OAM技术支持数据推送(例如SNMP Trap、Syslog和sFlow),但推送的数据仅限于预定义的管理平面告警(例如SNMP Trap)或采样的用户分组(例如sFlow)。支持上述应用场景的OAM数据需要具有任意来源、任意粒度和精度,这超出了现有技术的能力。

(6)传统被动式测量技术要么消耗过多的网络资源,产生过多的冗余数据,要么导致测量结果不准确;而传统主动式测量技术不仅会干扰用户流量,而且其测量结果是间接的,不能准确反映用户流的真实服务质量。需要一种直接和按需从用户流量中收集性能数据的技术。

3 网络遥测技术

3.1 网络遥测技术特点

网络遥测是近年来出现的一种新的数据采集技术,有别于传统的网络OAM技术。其中,代表性的技术和协议包括IPFIX[9]和gPRC[10]。网络遥测允许单独的实体从网络设备获取数据,以便于支持可视化的网络监控和操作。网络遥测技术与传统的网络OAM技术虽然有重叠部分,但具有更加广泛的应用范围。网络遥测技术有望为自动驾驶网络提供必要的网络洞察力,解决传统OAM技术的不足。

网络遥测与传统网络OAM工具之间的主要区别是,网络遥测假定机器是数据使用者,而不是人工操作员。因此,网络遥测可以直接触发自动化的网络操作,而传统的OAM工具通常可以帮助操作者对网络进行监测和诊断,指导人工的网络操作。这种差异导致了两种完全不同的技术。

网络遥测作为刚刚出现并处在不断发展的新技术,其所具有的下述特性已被网络界广泛接受。

(1)基于推送和流式传输。遥测采集器采用订阅方式获取从网络设备中的数据源推送的流式数据,而不是传统轮询方式获取网络设备的数据。

(2)数据容量和速度。遥测数据的目的是供机器使用,而不是供网络操作员使用。因此,遥测采集数据量大,而且对数据的处理往往是实时的。

(3)标准化和统一化。遥测旨在满足整个网络自动化的需要。传统OAM方法提供的单一解决方案不再适用,需要努力规范数据表示和统一遥测协议。

(4)基于模型。遥测数据预先建模,允许应用程序轻松配置和消费数据。

(5)数据融合。单个应用所需要的数据可能来自多个数据源(如跨域、跨设备、跨层),需要关联才能起作用。

(6)动态和交互。由于网络遥测用于网络自动化的闭环控制,它需要连续运行,并适应来自网络操作控制器的动态和交互式查询。

此外,理想的网络遥测解决方案还可能具有以下特性或特点。

·网内(in-network)定制。数据可以在网络运行时定制,以满足应用的特定需求,这需要可编程数据平面的支持,以允许探针灵活部署在网络任意位置。

·网内数据聚合和关联。网络设备和聚合点可以确定哪些事件和哪些数据需要存储、报告或丢弃,从而减少中央收集和分析系统的负担,同时仍能确保正确的信息得到及时处理。

·网内处理和操作。有时由中央采集分析系统对接收到的所有数据进行处理和采取行动是不必要或不可行的。在网内对数据进行本地化处理并采取行动具有更好的实时性。

·直接由数据平面导出。为了提高效率,特别是在需要实时处理的情况下,可以将源于数据平面的数据直接导出到数据消费者。

·带内数据收集。除了传统被动和主动数据采集方法外,网络遥测这种新的混合数据采集方法允许直接为其整个转发路径上的任何目标流采集数据。

值得注意的是,无论网络遥测系统有多么先进,都不应对网络产生侵入行为,也就是说,它不应该改变网络行为,影响转发性能。

3.2 网络遥测框架

网络遥测技术可以从多个维度进行分类。本文从3个独特的视角阐述网络遥测基本框架:数据获取机制、数据对象模块和功能部件。

(1)数据获取机制

一般来说,网络数据可以通过推送(push)和轮询(poll)获取。就推送模式而言,订阅者可以在准备就绪时请求数据。它遵循发布订阅(pub-sub)模式或订阅发布(sub-pub)模式。在pub-sub模式下,发布预定义的数据,多个合格的订阅者可以订阅数据。在sub-pub模式下,订阅者指定感兴趣的数据,并要求网络设备在数据可用时交付数据。

有4种来自网络设备的数据类型如下。

·简单数据:从网络设备中的一些数据存储或静态探针中得到稳定可用的数据。这些数据可以用YANG模型来描述。

·复杂数据:需要对从一个或多个网络设备的原始数据进行合成或处理。数据处理功能可以静态或动态加载到网络设备中。

·事件触发数据:根据某个事件的发生情况有条件地获取数据。事件可以建模为有限状态机(FSM)。

·流式数据:连续或周期性地生成数据。它可以是时间序列,也可以是数据库的转储。流式数据反映了实时的网络状态和度量,需要较大的带宽和较强的处理能力。

订阅模式通常处理事件触发数据和流式数据,查询模式通常处理简单数据和复杂数据。容易看出,传统的OAM技术只适合查询简单的数据,虽然这些技术仍然很有用,但高级网络遥测技术更关注其他3种数据类型,更擅长于基于事件触发/流式数据的订阅和复杂的数据查询。

(2)数据对象模块

遥测技术可以应用于网络设备中的转发平面、控制平面和管理平面3个数据对象模块,每个模块都通过自己的接口与网络操作应用程序进行交互。

对这3种数据对象模块进行区分的原因在于不同的遥测数据对象导致不同的数据源和导出位置。这些差异对网内数据编程和处理能力、数据编码和传输协议、数据传输带宽和时延有着深远的影响。

总结了3个数据对象模块的主要差异见表1,主要从数据对象、数据导出位置、数据模型、数据编码、遥测协议、传输协议6个方面进行比较。数据对象是每个模块的目标和源,由于数据源不同,数据导出位置也不同。因为每个数据导出位置具有不同的能力,需要选择适当的数据模型、编码和传输协议与其适配,因此,适用于每个模块的遥测协议可能不同。

(3)功能部件

在每个数据对象模块(平面),遥测可进一步划分5个不同的功能部件,网络遥测框架中的功能部件如图1所示。

表1 3个数据对象模块的主要差异

·数据查询、分析和存储:这个部件工作在应用层。一方面,它负责发布数据查询。查询可以是通过配置获得的建模数据,也可以是通过编程获得的自定义数据。查询可以是事件或流式数据的一次快照或订阅。另一方面,它从网络设备接收、存储和处理返回的数据。数据分析可以是交互式的,以启动下一步的数据查询。该部件可以位于网络设备或远程控制器中。

·数据配置和订阅:此部件在设备上部署数据查询。它确定应用程序获取所需数据的协议和通道。此部件还负责配置可能无法直接从数据源获得的所需数据。订阅数据可以通过模型、模板或程序进行描述。

·数据编码和导出:此部件确定遥测数据如何传递到数据分析和存储部件。数据编码和传输协议可能因数据导出位置而异。

·数据生成和处理:被请求的数据需要在网络设备中的数据源捕获、处理和格式化。这可能涉及网络设备中快速路径或慢速路径上的网内计算和处理。

·数据对象和数据源:此部件确定监视对象和原始数据源。数据源通常只提供需要进一步处理的原始数据。数据源可视为探针,可以静态安装,也可以动态安装。

图1 网络遥测框架中的功能部件

4 网络遥测在自动化运维中的应用

4.1 微突发检测

IP网络基于TCP/IP的统计复用特点决定了网络流量具有突发性。网络产生的“微突发”短时拥塞现象会引起时延增加以及报文丢失,进而导致通信双方重传报文,影响关键业务流的通信质量。微突发越多,网络通信质量越差,网管需要及时监测微突发,并对网络流量做出快速调整。传统基于SNMP的轮询(poll)模式采集设备端口流量统计数据由于需要客户端和服务器之间频繁交互,不仅数据采集效率低,而且占用大量服务器处理资源,只能实现分钟级别的流量采集,无法实现秒级甚至毫秒级的流量采集。平时看到的5 min采样周期流量曲线反映的是每个5 min的平均流量,无法展示更小时间粒度的真实流量情况,如毫秒级或亚秒级的微突发流量。网络遥测采用订阅/发布的推送(push)模式可以大幅减少客户端和服务器之间交互,提高服务器的工作效率,可以实现毫秒级的流式数据采集上送,能够更精确地反映网络实时流量状态,实时检测到端口流量微突发情况,及时发现网络拥塞,运维人员据此可以动态调整网络流量,或借助自动化运维手段对时延和丢包敏感的关键业务流进行路径优化,减少对这类关键业务的影响,很好地保障业务的SLA。

基于SNMP和Telemetry模式流量统计曲线对比如图2所示。从图2所示流量统计情况来看,从SNMP get方式查询的5 min的流量统计来看是平滑的,没有任何的网络异常,但从Telemetry方式上报的流量统计可以明显看到微突发现象。由此可见,通过Telemetry高精度采样,可以检测到这些微突发。

尽管基于Telemetry推模式可以实现毫秒级的流式数据采集上送,由于数据采集频度高,单位时间内上送的数据量巨大,在增加对网络资源占用的同时,对采集和分析服务器的存储和数据处理性能也提出了更高要求。事实上,网络在大部分时间(除忙时或发生某种重大突发事件外)里不会发生拥塞,链路带宽利用率通常保持在合理范围,对设备端口流量进行亚秒级甚至毫秒级的持续性采集会白白消耗掉大量资源。怎样以一种自适应方式来动态调整流量采集频度实现对资源的最小化消耗,同时又能及时捕获网络微突发或发现网络拥塞趋势,是一个值得研究探讨的课题。一种方法是根据设备队列长度或缓存填充水平自动调整流量采集周期。通过长期监测设备将要发生拥塞时的队列长度或缓存填充水平,确定一个调整流量采集周期的阈值,当监测到队列长度或缓存填充水平处于较低位置时,保持正常的流量采集周期;当队列长度或缓存填充水平超过预设阈值时,根据一定的算法动态调整流量采集周期来加快流量采集频度。

图2 基于SNMP和Telemetry模式流量统计曲线对比

4.2 关键业务流SLA检测

5G时代将会涌现出大量eMBB和uRLLC等高价值业务,这类业务对时延、抖动及丢包等质量指标提出了更高要求,需要充分保障它们的SLA水平。对这类关键业务流进行精准SLA检测成为网络运维的重要工作。传统主动测量方法包括外挂探针、IP ping、IP traceroute以及设备内置的性能测试功能如TWAMP/ OWAMP、RFC 2544等,主动测量方法通过发送测试报文间接测量真实业务流的服务质量,这类测量方法对网络产生入侵行为,严重情况下甚至会干扰正常业务流量,而且其测量结果只能间接反映业务流的服务质量,不能真实呈现出业务流路径和服务质量。

网络遥测技术提出了一种随流/带内检测(in-situ-OAM,IOAM)方法[11],它将一个新的指令头嵌入用户数据包中,该指令引导网络节点将请求的OAM数据添加到数据包中,从而收集数据包在整个转发路径上获得的业务体验。这种混合式测量技术能够实现对业务流质量的精准测量,克服了上述传统测量方法的不足。

IOAM一般部署在一个IOAM域里,一个IOAM域包括IOAM封装节点、IOAM穿透节点、IOAM解封装节点。IOAM封装节点位于IOAM域的头端,对标记的数据报文添加一个或多个IOAM选项字段;IOAM解封装节点位于IOAM域的末端,该节点剥离掉报文中的IOAM选项字段,恢复原始报文格式;IOAM穿透节点能感知报文中的IOAM选项字段,并更新IOAM数据。IOAM域各节点对数据报文的处理过程如图3所示。

图3 IOAM域各节点对数据报文的处理过程

IOAM定义的跟踪选项(IOAM trace option)包含一个固定大小的“跟踪选项头”和一个用于存储收集数据的可变数据空间,即“节点数据列表”。 IOAM跟踪选项可以收集以下类型的信息:

·IOAM节点的标识;

·接收数据包接口的标识,即入接口;

·数据包发送到接口的标识,即出接口;

·节点处理数据包的时间,或者传输时延;

·通用数据,包括地理位置信息(包处理时的节点位置)、包处理时的缓冲队列填充水平或缓存填充水平,甚至电池充电水平。

尽管如此,IOAM也面临着几个方面的技术挑战。首先,由于IOAM头部和数据处理需要在数据平面快速路径中完成,可能会影响数据平面转发性能;其次,携带IOAM头部的数据包在路径的每个转发节点需要根据指令头增加OAM元数据,转发路径经过的节点数越多,收集的元数据就越多,数据包就越大,这样数据包长度可能超过路径MTU;与此同时,随着转发节点增多,数据包携带的OAM元数据开销也越大,有效载荷传输效率也就越低。最后,由于IOAM只在指定的终端节点导出遥测数据,如果数据包在网络中丢失,无法精确定位数据包丢弃位置。更糟糕的是,终端节点可能根本不感知数据包发生丢失。

基于明信片的遥测(postcard-based telemetry,PBT)[12]很好地解决了IOAM存在的问题。PBT采用IOAM直接输出选项(IOAM direct export(DEX)option),DEX选项由IOAM封装节点添加到数据包头中,并由IOAM解封装节点移除。使用DEX选项处理数据包的封装节点、穿透节点、解封装节点都可以向IOAM数据采集器导出请求的IOAM数据,PBT方式各节点对数据报文的处理过程如图4所示。DEX选项的固定选项头部分包含一个32 bit的流标识和一个32 bit的报文序列号,流标识可用于关联来自多个节点或来自多个数据报文中的属于同一流的报文,而报文序列号用于标识特定流的某一个具体的报文。这不仅帮助采集器关联来自所有途径节点上送的属于同一流中某个特定报文的IOAM数据,而且有助于精准分析数据包的丢弃位置。由于PBT方式把IOAM数据从被测量的数据包分离出来,单独以IOAM数据报文形式导出到采集服务器,IOAM数据报文可以在数据平面慢速路径中执行,避免影响正常业务流在快速路径上的转发性能。

图4 PBT方式各节点对数据报文的处理过程

PBT虽然解决了IOAM存在的上述问题,由于需要报文经过的每个节点向采集服务器输出IOAM数据,这不仅消耗了网络带宽,也增加了采集服务器的存储和处理负担,因此,可行的解决方案通常只需选择被监测关键业务的一部分流或部分报文启用PBT功能。通过在头节点(IOAM封装节点)配置访问控制列表(ACL)选择被监测的业务流,并对匹配的业务流设置某种采样率(比如按时间间隔、报文数量百分比等方式)获取被监测业务流的一个子集。这样可大幅减少IOAM数据对带宽占用,同时也可减轻采集服务器的存储和处理负担。

5 结束语

遥测技术可以全面实现网络设备中的转发平面、控制平面和管理平面3个数据对象模块的OAM数据采集,同时对各个平面提出了新的需求和挑战。管理平面遥测协议为了支持自动化的网络操作,需要采用基于YANG模型描述的结构化数据;为实现高速数据传输,需要支持push模式的订阅/发布机制。控制平面遥测需要对覆盖2层到7层的不同网络协议的健康状况进行监测,跟踪这些协议的运行状态有助于实时、细粒度地检测、定位甚至预测各种网络问题,帮助网络优化。数据平面遥测系统依赖于网络设备本身暴露数据的能力,由于数据平面的主要功能是对业务流量的高速处理和转发,开启遥测功能不应妨碍转发性能。业界一致认为,数据平面可编程性对于支持网络遥测至关重要。为了满足多层次的数据采集,网络遥测对网络设备开放和可编程能力提出了更高要求。目前主流的新一代数据平面芯片基本具备了先进的遥测功能,并提供了支持定制化遥测功能的灵活性。与此同时,网络遥测还需要控制层和数据采集/分析层的有机配合,共同实现“自动化的数据采集+智能化的数据分析+动态化的网络优化”全闭环控制。怎样实现网络层、数据采集和分析层、控制层三者的协同和自动化闭环是网络遥测下一步需要研究的方向。

网络遥测从网络各个层面提供了丰富的OAM数据,为大数据分析和机器学习提供了足够的数据样本,能够帮助运营商预测和发现网络潜在故障、网络拥塞、大规模分布式拒绝服务(DDoS)攻击、网络健康状况等趋势,快速精准定位故障和网络异常行为。同时,这些网络OAM数据反过来也可以应用于运营商的网络规划、入侵防御、网络优化和自愈等网络策略更新。

网络遥测作为近年来不断发展的一种新的数据采集技术,极大地丰富了采集数据的多样性,包括从包处理引擎到流量管理器,从线路卡到主控板,从用户流到控制协议包,从设备配置到网络运行,从物理层到应用层,拓展了传统OAM数据采集范围。其目标是实现实时的全局网络状态可视和流量可视,通过与大数据和AI技术相结合,减少人工干预,提升网络自动化运维水平。网络遥测的终极目标是由智能网络运行引擎自动发出遥测数据请求,分析数据,并在闭环控制中更新网络操作,实现整个控制回路中完全无人操作的自动驾驶网络。

[1] 3GPP. Study on scenarios and requirements for next generation access technologies: TR38.913[S]. 2016.

[2] 何晓明,岳萍,卢泉,等. 面向5G 承载的IP RAN 演进及关键技术[J]. 电信科学, 2019, 35(3): 125-135

HE X M, YUE P, LU Q, et al. Evolution and key technologies of 5G-oriented IP RAN[J]. Telecommunication Science, 2019, 35(3): 125-135.

[3] IETF. Network telemetry framework, IETF draft, work in progress[S]. 2020.

[4] KATZ D, WARD D . Bidirectional forwarding detection (BFD): RFC 5880[S]. 2010.

[5] NADEAU T, MORROW M, SWALLOW G, et al. Operations and management (OAM) requirements for multi-protocol label switched (MPLS) networks: RFC 4377[S]. 2006.

[6] SHALUNOV S, TEITELBAUM B, KARP A, et al. A one-way active measurement protocol (OWAMP): RFC 4656[S]. 2006.

[7] HEDAYAT K, KRZANOWSKI R, MORTON A, et al. A two-way active measurement protocol (TWAMP): RFC 5357[S]. 2008.

[8] Exploiting external event detectors to anticipate resource requirements for the elastic adaptation of SDN/NFV systems[Z]. 2020.

[9] CLAISE B E, TRAMMELL B E, AITKEN P, et al. Specification of the IP flow information export (IPFIX): RFC7011[S]. 2013.

[10] gPPC. A high performance, open-source universal RPC framework[Z]. 2018.

[11] BROCKERS F, BHANDAR S,PIGNATARO C, et al. Data fields for in-situ OAM, IETF draft, work in progres[Z]. 2020.

[12] SONG H, ZHOU T, LI Z, et al. Postcard-based on-path flow data telemetry, IETF draft, work in progress[Z]. 2020.

Network telemetry technology and its application in automatic network operation and maintenance

MAO Dongfeng1, JIA Man1, HE Xiaoming2, LIU Zhihua2

1. China Telecom Group Co., Ltd., Beijing 100032, China 2. Research Institute of China Telecom Co., Ltd., Guangzhou 510630, China

As a new data acquisition technology, network telemetry has greatly enriched the diversity of data acquisition and expanded the range of traditional OAM data acquisition, whose goal is to realize real-time global network state visibility and traffic visibility. By combining with big data and AI technology, it can reduce human intervention and improve the operation and maintenance level of network automation. Firstly, the problems and challenges faced by the current IP network operation and maintenance were analyzed, and then it was elaborated that the network telemetry technology was the key enabler to realize the automatous network operation and maintenance. On this basis, the application of network telemetry technology in the IP network automatic operation and maintenance was investigated and discussed, and the reference and guidance for the automatic operation and maintenance of large-scale IP network were provided.

network telemetry, automatic operation and maintenance, OAM, active measurement, hybrid measurement

TN915.41

A

10.11959/j.issn.1000−0801.2021012

2020−06−01;

2020−12−25

何晓明,hexm4@chinatelecom.cn

毛东峰(1973−),男,博士,中国电信集团有限公司高级工程师,云网运营部AI与大数据中心副总经理,主要从事网络运行维护管理及云网融合研究工作。

贾曼(1971−),女,中国电信集团有限公司高级工程师,云网运营部云网运行处资深项目经理,主要从事互联网网络运行维护管理及新技术研究工作。

何晓明(1968−),男,博士,中国电信股份有限公司研究院高级工程师,主要从事数据网络研究和支撑工作,主要研究方向为网络架构、协议、流量工程、SDN/NFV等。

刘志华(1970−),男,中国电信股份有限公司研究院高级工程师,主要从事数据网络研究和支撑工作。

猜你喜欢
网络设备遥测报文
基于J1939 协议多包报文的时序研究及应用
网络设备的安装与调试课程思政整体设计
CTCS-2级报文数据管理需求分析和实现
一种基于C# 的网络设备自动化登录工具的研制
浅析反驳类报文要点
基于WPF的遥测CAS信息实时监控系统设计开发
自适应模糊PID控制的遥测方舱温度调节方法
ATS与列车通信报文分析
浅谈如何提高遥测状态估计合格率
利用VBA处理邻近气象站的相关遥测数据