基于NLP技术构建AI运维机器人的探索与实践

2024-04-17 14:08翁先正郑棉鑫李才俊吴涛张彩萍
数字通信世界 2024年3期
关键词:对话式机器人

翁先正 郑棉鑫 李才俊 吴涛 张彩萍

摘要:随着网络业务的快速发展和网络技术的快速演进,人们对网络运维的要求也随之提高。当下的网络运维存在技术门槛高、闭环效率低、运维一致性差等问题。AI运维机器人基于NLP(Natural Language Processing,自然语言处理)技术,为运维人员提供极简的“对话式”运维操作,智能识别运维意图和操作对象,高效自动化执行任务,有效降低了运维人员的技术门槛,替代烦琐人工操作,有效提升了运维效率,实现了网络运维的提质增效。

关键词:NLP;网络运维;对话式;机器人

doi:10.3969/J.ISSN.1672-7274.2024.03.010

中图分类号:TP 242           文献标志码:A           文章编码:1672-7274(2024)03-00-04

近年来,数字业务迅猛发展,网络直播、在线教育、远程会议等网络数字业务迅速壮大,成为国民经济的重要推力。在数字经济发展的新时代,作为数字经济基础的网络质量至关重要。网络问题的快速闭环是衡量网络服务质量的重要标准,而随着网络日趋复杂,网络运维压力日益增大,如何将最新的技术融入生产流程,提升问题处理效率,是一个迫在眉睫的课题。贵州移动联合华为成立联合攻关项目组,结合OMC网管维护操作特点,基于NLP技术,智能识别运维意图和实体,将分散在多个菜单界面的信息进行编排组合并自动化执行任务,构建全新的“对话式”极简运维[1]。

1   网络运维现状与问题

1.1 现状

随着网络业务的快速发展和网络技术的快速演进,基础设施虚拟化和网络设备软件化在实现资源弹性分配、动态调度等新特性的同时,也给分层解耦的转型网络带来了更多的异厂商设备组合和管理层次,网络协同复杂度陡增,进一步加剧了网络运维的管理难度。

网管系统是基于微服务框架搭建的Web系统,随着网络业务复杂度的提高,网管系统的复杂度也不断提高,业务模块与业务功能持续增加。在日常网络运维工作中,传输网络要负责无线、家宽、政企及新型业务承载的安全运行保障,面向的维护对象庞大且故障较多,大量业务故障协查、资源统计及隐患排查等高频操作都需要维护人员操作网管系统来完成。在传统运维模式下,凸显出维护人员的捉襟见肘和疲于应付[2]。

1.2 问题

1.2.1 技术门槛高

网管系统随着业务演进带来的系统复杂性,对维护人员的技术门槛有较高要求,维护人员需要不断适应业务演进带来的系统变化与操作变更,在此过程中需要投入大量的培养成本。同时,系统复杂性还给维护人员带来了较高的记忆负担,运维人员需要通过日常不断的操作来慢慢记住每个运维场景对应的页面、菜单与功能项入口以及对结果信息的甄别。对于复杂的网络问题处理,运维人员往往会遇到查什么、如何查、在哪里查等问题,每一步都需要花费一定的时间,影响网络问题处理效率[3]。

1.2.2 閉环效率低

网络运维除了对运维人员高技术门槛要求,在运维场景的闭环效率上也存在较大的提升空间。网管系统是当下流行的Web实现,运维人员在客户端的图形化界面层通过点击、选择等动作触发业务接口调用,服务端响应处理返回数据,再由前端渲染为可视化结果。

在日常网络运维场景中,往往需要运维人员在多个菜单界面上进行相关操作来完成,在此过程中会触发运维人员与客户端的交互以及多次客户端与服务端的数据交互,运维场景闭环效率强依赖于运维人员的操作效率、操作步骤以及系统的响应效率,这种串行的多步骤人机交互方式无法满足日益增长的闭环效率要求[4]。

1.2.3 运维一致性差

网络运维人员的业务知识和技术水平各不相同,对同样的运维场景有不一样的业务理解与处理方法,难以保证相同运维场景的全面性与结果一致性,存在信息遗漏或信息甄别的隐患,甚至可能出现某些操作失误导致的重大网络隐患或业务故障。

2   AI运维机器人方案介绍

通过对网络业务演进需求和网络运维现状进行分析可知,当下网络运维在自动化执行、流程协同、信息甄别的效率提升和准确性上存在较大的需求与提升空间。

聚焦传统运维人机交互存在的技术门槛高、闭环效率低和运维一致性差的问题,AI运维机器人基于NLP技术在网络运维领域提供了一种全新的“对话式”运维方案。运维人员只需要输入一句话跟运维机器人描述日常运维意图,机器人便可以从输入文字中智能识别出运维人员的运维意图和操作对象,通过预制的专家经验、业务知识和业务关系,智能识别出需要查询的信息,自动执行任务,实时查询分散在网管系统多个界面的信息,并组合汇总成表格,信息全面准确,秒级完成任务。

通过AI运维机器人极简的对话式运维方式,运维人员不再需要去记忆每个运维场景对应的界面与操作入口,大幅降低了运维人员的技术门槛与记忆负担。同时,AI运维机器人可自动完成复杂的业务查询,简化了运维人员在网管系统上烦琐的操作,大幅降低了操作成本。AI运维机器人将串行的多步骤人机交互变成一步交互,减少了运维人员与客户端、客户端与服务器的交互次数,自动并行执行任务,极大地提升了端到端的业务闭环效率。在运维一致性上,AI运维机器人基于同源一致性的业务知识执行任务,运维人员之间只需要对齐运维意图,机器人就可以保证相同运维场景下的一致性运维,消除了信息遗漏和信息甄别出错的隐患[5]。

3   AI运维机器人方案实现

3.1 系统架构

(1)前端用户界面层:提供7×24常驻的统一对话框界面入口。运维人员在对话框输入问题,AI运维机器人匹配对应的对象和意图并在对话框内渲染结果。

(2)对话框架层:提供对话处理和用户交互的整体框架,包括用户追问(用户输入信息不全)、多轮交互(对话确认)、系统上下文(对象或意图的关联推荐)等;提供对话编排的整体框架,用于业务逻辑(比如专家经验、业务知识、业务关系)的组合调用与注入。

(3)AI模型层:基于Bert、TextCNN和Elasticsearch实现模型,实现从运维人员的原始输入中智能识别运维意图并模糊匹配到具体的操作对象。

(4)业务逻辑层:网管系统中具体业务模块的软件实现层,提供业务知识调用与组合,作为意图查询中的原子调用。

(5)日志记录模块:记录运维人员通过AI运维机器人下发的指令,用于管理与统计。

(6)权限控制模块:用户和角色分权分域管理,运维人员通过AI运维机器人执行相关运维任务需要具备对应的操作权限,用户只能操作用户个人管理范围内容的网络对象[6]。

3.2 设计实现

基于系统的架构设计,各个模块进行分層分块,系统整体基于微服务架构实现各业务模块之间的分离和解耦,各个模块层基于业界主流软件技术,通过自研开发关键设计模式和关键算法实现。

(1)前端UI层。基于React框架实现运维数据的界面渲染,基于Redux框架实现界面的动态更新,基于Axios实现HTTP接口调用,提供适用网络运维场景下的可视化组件。

(2)对话框架层。基于AIML(Artificial Intelligence Markup Language)和SAX(Simple API for XML)实现网络运维领域的业务编排框架,以配置文件的形式自由组合业务逻辑和原子接口调用,提供动态快速更新业务的逻辑能力[7]。

(3)AI模型层。基于Bert预训练模型和TextCNN模型,将网管领域的运维操作语料进行同义词泛化、实体泛化、句法分析泛化,训练得到对应的模型。运维人员输入句子后,模型将句子转为句向量,输入到卷积层做特征提取,池化后再次过滤特征,最后到激活层计算出句子分类的一维向量,获取用户原始输入对应的运维意图和操作对象部分,再将操作对象部分与网管系统中的网络对象进行基于Elasticsearch的匹配[8]。

(4)业务逻辑层。网管系统中已存在的原始数据实现层,AI运维机器人只涉及对该模块的调用。

3.3 关键能力描述

3.3.1 网络运维领域的自然语言处理能力

AI运维机器人基于Bert+TextCNN构建网络运维领域的AI模型,对网络运维领域常用的语料进行扩展和泛化,从而具备网络运维领域的适用性。NLP目标是从运维人员的原始输入中得到意图(即运维任务)和实体(即操作对象)两部分。通过对原始输入进行分词和特征提取,与关联性最高的意图匹配,再结合Elasticsearch和模糊匹配算法,与得分最高的网络对象名称(如业务、网元、端口等)匹配。

3.3.2 网络运维领域的知识图谱

AI运维机器人引入知识图谱技术,将网络中的业务、网元、端口、接口等对象和日常运维意图作为图谱的基本图节点,构建成一张网络运维领域的知识图谱。

在图谱中的网络运维对象之间构建对应的网络关联关系(例如网元拥有端口、业务使用端口),通过图查询算法可以快速由一个已知网络对象快速查找到关联的网络对象。例如,已知业务,可以根据不同关系快速查找到子接口和源宿网元。

图谱中的运维意图与网络对象存在对应的映射关系,例如,业务支持排障意图,网元对象支持查空闲端口意图,端口支持查光功率意图等。根据映射关系可以实现意图和实体之间的正反向关联,支撑对话过程中的输入联想和追问[9]。

3.3.3 可视化聊天组件

网络运维领域的业务对象具备一定的特殊性和复杂性,AI运维机器人对查询结果的可视化也做了算法优化。针对网络运维关注的内容,开发对应的拓扑图、趋势图、统计图、折叠表格、嵌套表格、对话卡片等前端组件。通过数据匹配度,自动选取相似度最高的组件,将查询结果清晰、可视化地渲染在助手的聊天框中,使运维人员能快速聚焦最有效的信息。例如,关注业务结构和断点的排障意图,AI运维机器人会呈现拓扑关系图和诊断报表;关注统计结果的重保巡检意图,AI运维机器人会呈现统计图表。

3.3.4 网络运维的三查能力

基于专家经验和网管操作分类统计分析,构建网络运维领域高频的报障协查、隐患排查和资源核查等“三查”关键能力,系统通过对话编排框架预置近30个运维意图并将其加入到知识图谱节点。

在AI运维机器人中,基于网络构建并将其领域的知识图谱,结合自然语言处理技术,将用户原始输入的文字转为知识图谱中的起始节点和目的节点。通过知识图谱的广度遍历查找算法得到最短路径和相关对象,并调用具体的业务接口和意图接口,得到实时的业务对象和运维意图查询结果,自动地秒级完成相关查询任务,自动选择最匹配的组件,呈现直观的查询结果,并通过聊天对话框进行推送。

同时,针对节假日及特定重大活动保障,利用AI运维机器人可以做定制化巡检。用户通过模板导入区域、重要业务(党政军VIP基站、重保专线)、重要网元(承载网核心节点设备),自定义重保期间的巡检对象。自定义巡检项目,如设备关键告警(链路中断告警、硬件告警、电源告警)、关键性能(光功率、误码、温度、CPU利用率)、环网或端口峰值带宽利用率、核心设备数据配置、重要业务SLA质量(时延、抖动、丢包)等,并自定义巡检周期(如重复日期、每日巡检时段、每隔X小时执行一次),AI运维机器人定时执行任务并自动推送重保巡检报告。

4   应用效果

贵州移动推广运行AI运维机器人近一年来,累计使用达到近3万次(资源核查73%,故障协查18%,保障巡检9%),月均使用量超过2 000+,覆盖省内80%维护人群。已覆盖运维场景操作效率提升90%以上,其中报障协查从平均20分钟缩短至10秒以内、资源核查从平均5分钟缩短至10秒以内,1分钟完成上千数量级的重保对象关联与整理动作,2分钟完成3人协作的隐患排查。推广使用以来,累计识别近1 000隐患问题(单链、未绑环、逻辑同路由),支撑维护人员完成整改,提升网络运行质量。

同时,AI运维机器人的能力已延伸到手机App端,解决站点维护人员只能依赖网管后台人员低效提供告警、性能、资源等排障信息的痛点(网管后台人员往往一对多,站点人员获得信息等待时间较长),为站点维护人员提供“一站式”自主维护排障能力,高效完成现场维护操作,减少二次上站效率超过30%,并解放网管后台人员90%的电话支撑。

5   结束语

本项目实践证明了AI“对话式”交互在網络运维的可行性和价值性。近年来以ChatGPT为代表的生成式AI技术给人类带来了相当的震撼,从生产内容形式上大致分为文本生成、代码生成、图像生成、音频生成、视频生成和其他内容六大类,具有大算力、大数据、大模型的典型特点。相比之下,在电信运营商的网络运维领域属于较为单一的垂直领域,AI运维机器人未来可结合通信网络运维的特点进一步探索生成式AI的应用场景,打造属于网络运维领域的AutoGPT,替代人完成更复杂更高难度的运维操作,成为高阶的数字员工。

参考文献

[1] 李心玥,徐佳琦,周思静,等.基于NLP技术在运维自动化领域构建智能问答模型的探索与实践[J].中国金融电脑,2021,13(8):75-80.

[2]兰祝刚,任然.ChatGPT对运营商影响及发展建议.中国电信业,2023(4):28-31.

[3] 于丹,闫晓宇,王艳秋,等.任务型对话机器人的设计及其应用[J].软件工程,2021,24(2):55-59.

[4] 陈健鹏,马建辉,王怡君.基于多轮交互的人机对话系统综述[J].南京信息工程大学学报(自然科学版),2019,11(3):256-268.

[5] 谢腾,杨俊安,刘辉.基于BERT-BiLSTM-CRF模型的中文实体识别[J].计算机系统应用,2020,29(7):48-55.

[6] Chat with ChatGPT on Industry 5.0:Learning and Decision-Making for Intelligent Industries. Fei-Yue Wang;Jing Yang;Xingxia Wang;Juanjuan Li;Qing-Long Han.IEEE/CAA Journal of Automatica Sinica,2023,10(4):831-834.

[7] 贵重,李云翔,江为强.人工智能的发展与挑战——以ChatGPT为例.电信工程技术与标准化,2023(3):24-28.

[8] 钱力,刘熠,张智雄,等.ChatGPT的技术基础分析[J].数据分析与知识发现,2023(3):6-15.

[9] 李振华,倪丹成,徐润.ChatGPT背后的人工智能大模型的技术影响及应用展望[J].中国外汇,2023(6):6-11.

猜你喜欢
对话式机器人
机器人,让未来走近你
对话式中学语文课堂教学探究
语文教学中对话式教学的运用
基于“对话式学案”的阅读教学模式研究
机器人来帮你
认识机器人
机器人来啦