基于改进DQN模型的目标区域消减算法

2024-03-12 15:15郭文鹏

内江师范学院学报 2024年2期

张攀, 郭文鹏

(内江师范学院 a.人工智能学院 b.数据恢复四川省重点实验室, 四川内江 641100)

0 引言

随着人工智能技术的发展,深度学习与强化学习越来越多应用于智能设备的控制过程.在部分场景,如智能消防炮对火灾区域的灭火过程[1]、智能机器人对淤泥区域的冲刷过程[2]等.由于可燃物火焰的可复燃性、被冲刷淤泥的可扩散性等原因,现有设备在消减目标区域时,即火灾区域、淤泥区域等,整体上会呈现面积降低但中间过程反复而低效的现象,这是由于现有设备运行的多步骤算法相互分离,且未考虑输入数据的历史特征.

现有算法主要是执行包括目标区域获取、目标消减交互及效果评估等两个过程.目标区域往往基于视觉图像进行获取,其具体有效区域的筛选算法已经相对成熟,可以基于通用目标检测算法[3]或图像分割算法[4]实现.目标消减交互及效果评估时往往直接利用目标区域获取结果进行简单的相减来实现,且当前执行过程往往与过去消减效果分离,不具备记忆性,这种将目标消减过程理想简化的算法导致设备投入使用时效果不佳.同时,系统两个执行步骤的相互分离,也带来算法间的累积误差.

为弥补现有算法的不足,以及更多利用目标消减过程的历史数据,本文提出一种基于改进深度强化学习模型的智能化目标区域消减算法.该算法通过DQN网络模型与ConvLSTM网络模型的有效结合提升目标消减过程的效率.同时利用裁剪的UNet网络,并添加自相似池化与反池化机制后增强对输入图像区域分割的能力.通过构建的相关数据集的训练,本文算法相比其他四种对比算法,在测试集中获得更好效果.

1 相关算法原理

深度强化学习[5]将深度学习的感知能力与强化学习的决策能力结合,从而实现从数据输入到控制输出的端到端模式训练,通过迭代训练与奖励反馈,不断更新智能体参数,获得最优控制决策.DQN[6]是一种典型的深度强化学习模型,其改进中采用了经验重放和Q-targert目标网络,提高算法稳定性,结合具体场景奖励函数的不同,被广泛应用于自动决策控制领域.具体而言,DQN模型是对Q-Learning模型的改进,主要包括智能体、环境两个主体,以及主体之间交互的奖励、状态、动作等三个要素.对于环境主体,在仿真代码实现时需要合理描述环境特征,并实现基于动作值的环境反馈,同时往往也会增加相关的可视化显示.对于智能体主体,其主要包括可学习的神经网络模型、用于交互要素存储的结构、动作策略及奖励函数.驱动其神经模型训练的损失函数如式(1)所示:

(1)

其核心在于所设计的智能体在连续两次状态与动作信息处理期间获得的奖励趋近于存储结构中存放的相应奖励值.

对过往数据进行记忆描述的深度学习模型,即提取时序信号特征的网络模型,最初开始于RNN网络结构,主要包括输入层、隐藏层与输出层,并通过循环单元的权重参数共享来形成记忆能力.后续针对其长时记忆能力不足问题,改进形成LSTM网络结构,其通过引入记忆细胞与多个门结构来形成长时记忆力,但这些模型均针对输入数据是类词向量结构,无法直接用于序列图像的处理[7-8].针对连续帧图像,有学者提出ConvLSTM网络模型来处理连续多帧的雷达图,并以此对降雨进行预测[9].ConvLSTM网络的核心在于将LSTM网络中的部分全连接改进为2D卷积神经网络连接,即如式(2)所示:

(2)

其中符号“*”所代表的卷积运算,最终使得空间维度特征提取能力得以提升;同时利用多个ConvLSTM网络结构构成编解码器,也可以提升时间维度特征提取能力.

UNet是典型的图像分割神经网络模型,是一种由编码器和解码器构成的U形主体的网络结构.其编码器需要在内部实现下采样以压缩信息,并向其同等尺度大小的解码器进行跳跃连接传递特征信息;而解码器需要在内部实现上采样以恢复信息,并以拼接操作接收其同等尺度大小的编码器进行跳跃连接传递来的特征信息[10-11].由于UNet结构本身的特性,其尤其适用于纹理、颜色等信息呈现连续分块存在的场景,分割效果更进一步提升则可以添加多种注意力机制,如利用通道注意力机制提高分类效果[12]、利用空间注意力机制提高定位效果[13].

2 基于改进DQN模型的智能化消减目标区域方法

本文应用场景中的目标区域如图1中标记所示,在可见光拍摄的图像中呈现典型的高纹理自相似特征,且在连续区域分块存在.

图1 目标区域数据标注示意图

为了合理利用目标图像特征,本文借助UNet网络强大的图像分割能力,提取自相似目标区域特征图后直接用于后续DQN网络的训练;而在构建DQN网络模型时,考虑到过往目标消减过程后存在可燃烧物的复燃以及被冲刷淤泥的扩散等原因,其可能形成的当前面积复增的目标区域与过往的历史区域有关.因此在其中引入ConvLSTM网络来构成DQN网络模型的智能体.

2.1 基于改进UNet结构的自相似目标区域特征捕获

UNet网络默认的输出特征图大小为388×388像素点,远高于本文后续DQN网络所需的128×128像素点大小.由于本文只是将UNet网络作为系统整体结构中的输入数据特征提取模块,为此如图2所示,本文改进其为一种非对称结构的编解码器,并将编码器的初始输入大小设定为256×256,解码器的最终输出特征图大小设定为128×128,进而降低网络参数数量.原有的解码器在输出层至少含有两个特征平面,即使用一个特征图平面作为背景,并利用softmax函数实现多分类.由于本文应用场景中只包含单一种类的目标区域,且输出特征图需要直接进行传递以实现端到端的可训练,因此实现时输出层仅包含一个特征平面,且利用sigmoid函数实现目标区域特征输出.

图2 改进的UNet网络结构

在进一步利用目标区域的自相似特性时,本文设计自相似池化模块与自相似反池化运算方法,并添加到UNet网络的下采样与上采样过程中.如图3(a)所示,自相似池化运算包括获取均值α、中位数β、计算自相似池化输出三个核心过程.由于目标区域存在相似特征,故其特征值在一定区域范围内是接近的,算法中将这个区域范围池化操作后的特征值out设定为α与β的平均数.如图3(b)所示,自相似反池化运算同样由均值α、中位数β,以及特征图中的最大值γ构成,其计算时通过判定待进行反池化的特征值out与α、β、γ的关系进行上采样.

图3 自相似池化与反池化原理

2.2 基于ConvLSTM网络模型改进DQN的智能体

为了利用时序帧图像信息,本文设计的DQN中暂存处理目标图像是过往的200组图像,其中每组图像包含3帧,除包含当前时刻帧的图像组以外,其他图像组中根据首尾帧之间的目标区域消减情况设置奖励值.同时将DQN的智能体改进为ConvLSTMs网络模型,以暂存的图像组作为数据进行训练,进而使得智能体可以获得与可燃烧物火焰复燃、被冲刷淤泥扩散等原因造成的目标消减区域面积反复相关的特征信息,并结合图像组数据的奖励值,训练模型输出改进的动作,如图4所示.

图4 DQN中智能体构成

文中使用的ConvLSTMs网络结构设定输入图像大小为25×25,处理序列长度为3,并包含3层ConvLSTM网络,卷积核都采用3×3,最终输出时会通过拼接操作获得一个包含3个通道的特征图组,并对该特征图组进行压缩,最终通过softmax运算输出包含5个可选动作的特征向量.

2.3 基于强化学习的控制消减目标过程仿真环境构建

对于本文研究场景中使用强化学习所需要的仿真环境及可视化效果,首先将目标区域设定为128×128格点大小,如图5(a)所示,其中A类格点代表的区域是待进行目标消减的区域,空白格点为消减完成或无消减目标的区域.对于强化学习输出策略所指导产生的动作带来的消减目标区域,如图5(b)使用B类格点表示,其大小在设定范围内随机生成,以模拟真实场景中水流浇灭火灾区域或冲刷淤泥区域的随机性.同时在每次执行动作完成后,会在当前消减目标区域的一定范围内随机生成新的待进行目标消减区域,以模拟可燃烧物火焰的复燃和被冲刷淤泥扩散现象,如图5(c)中C类格点所示.

图5 仿真环境可视化效果

表达强化学习执行动作的5个特征变量,在可视化效果中分别代表喷射水流以前一次水流落点为中心的同一落点、左边落点、右边落点、上边落点及下边落点等.表达强化学习奖励值的计算函数如式(3)所示:

r=e(∑pij/∑qij-1)-1,

(3)

其中pij表示前一次获取的环境图片中坐标(i,j)处映射的消减状态值,qij表示当前执行相关动作后获取的环境图片中坐标(i,j)处映射的消减状态值.

3 实验仿真与结果分析

3.1 实验环境及数据集

本文实验时采用Tesla V100 GPU、Intel Xeon CPU、64GB内存硬件环境,软件环境为Windows Server操作系统、Pytorch 1.5深度学习框架、CUDA 11加速包.为了提升整体模型的执行效果,本文对改进的UNet网络模型进行了相关的预训练,其对应的数据集分别包含约3 000张火焰燃烧区域和淤泥覆盖区域的图片,并进行了目标区域标记.该数据集的图片与基于128×128格点大小的程序生成仿真环境图片,按照4∶6的方式混合后构成适用于本文模型训练的数据集,并按照7∶3的比例划分为训练集与测试集.

3.2 模型算法消融实验

本文首先进行消融实验.即方案一模型中的目标区域获取部分采用改进的UNet并添加自相似池化与反池化运算,DQN的智能体部分采用简单的CNN网络.方案二与方案一类似,但模型中不添加自相似池化与反池化运算.方案三模型中的目标区域获取部分采用改进的UNet并添加自相似池化与反池化运算,DQN的智能体部分采用ConvLSTM网络模型.方案四与方案三类似,但模型中目标区域获取采用简单的CNN网络并添加自相似池化与反池化运算.从而分别说明改进UNet网络、自相似池化与反池化运算和ConvLSTM网络作为智能体等三个核心要素对系统整体性能的作用效果.实验量化结果如图6所示,分别统计计算仿真时水流喷射落点在目标消减区域内外的平均准确率APh,和目标区域消减完成时平均水流喷射次数的相对比率APf等指标.分析可以看出前者指标的提升主要受到添加改进UNet网络模型与否的影响,并在增加自相似池化与反池化运算后,效果进一步提升.后者指标的提升主要受到DQN网络中智能体部分是否采用ConvLSTM网络模型的影响.即改进UNet网络模型及添加的自相似池化与反池化运算使得水流喷射落点更多集中在目标消减区域范围内,ConvLSTM网络模型作为DQN网络的智能体将使得系统整体消减目标区域时水流喷射效率更高.

图6 消融实验量化对比结果

3.3 算法对比实验

针对本文设计算法整体性能的评估,参考已有算法,文中通过将DQN网络模型中的智能体分别替换为针对单帧图像的简单2D CNN网络[14]、针对图像序列转换为一维特征向量组的RNN网络[15]、针对图像序列转换为一维特征向量组的LSTM网络[16],以及针对多帧图像序列的3D CNN网络[17]进行对比实验.其中目标区域均采用改进的且进行了预训练的UNet网络结构,以使得所有算法都可以直接进行端到端的训练.将每个算法训练到收敛后,获得实验量化对比结果如图7所示,其评价指标只计算APf,即评价各个算法仿真执行目标区域消减时所需要的水流平均喷射次数相对比率.

图7 算法对比量化结果

分析对比结果可以看出,本文算法执行效果最佳.正如作为DQN网络模型中智能体的各个算法中的网络模型特征,本文采用的ConvLSTM网络能同时有效获取输入图像序列之间的时间和空间两个维度的特征信息,这与可燃烧物火焰的可复燃性、被冲刷淤泥的可扩散性等特征高度关联.而对于采用简单CNN网络的算法,其仅仅获得当前输入单帧图像的空间特征,难以关注可燃烧物复燃、被冲刷淤泥扩散等现象的特征.对于采用RNN网络与LSTM网络的算法,两者都提取了图像序列的时间维度特征,但前者记忆能力弱于后者,且都要求输入图像数据转换为一维特征向量,导致空间维度特征信息部分丢失,从而使得算法执行效果不佳.对于采用3D CNN网络的算法,其实现效果与采用LSTM网络的算法相当,虽然3D的卷积核可以提取大量的时间和空间维度特征,但当通过拼接操作构建的特征向量组中每个特征图间的变化相对较小时,将严重降低3D卷积核提取特征的有效性.最终本文算法执行水流喷射次数相对已有最优算法降低12.1%,效率提升明显,各种算法在仿真实验过程中的部分相同时刻采样的可视化结果如图8所示.

图8 算法对比可视化效果

4 结论

对于可燃烧物火焰的复燃、被冲刷淤泥的扩散等特殊场景下的目标区域消减过程,需要控制水流喷射装置的算法在执行时考虑历史过往信息以提高执行效率.因此本文通过在强化学习DQN模型的智能体中使用ConvLSTM网络获取包含时间和空间维度的历史帧序列图像.同时对环境图像的目标区域分割时采用改进的UNet网络实现,并添加自相似池化与反池化运算,不仅提高目标区域分割准确率,同时还使得算法模型整体能够进行端到端的训练,进一步降低算法两阶段分离带来的潜在误差.最终,在构建数据集基础上,实现目标区域消减过程的仿真,测试结果表明本文算法性能优于其他四种常用的算法.由于执行算法设备使用场景为室外,因此后续更进一步的研究工作将集中于网络模型的轻量化,以适应有限算力的户外设备.