基于注意力模型和Soft-NMS 的输电线路小目标检测方法

2023-12-06 07:50赵云龙田生祥齐鹏文
电子科技大学学报 2023年6期
关键词:悬浮物鸟巢注意力

赵云龙,田生祥,李 岩,罗 龙,齐鹏文

(国网青海省电力公司检修公司 西宁 810000)

随着特高压的逐渐普及,电网规模越来越大[1]。为了保障输电安全和质量,电力线路巡检越来越被世界各国重视。由于输电线架设高且多架设于崎岖地形,人工检查一方面需要花费大量的时间和精力,另一方面不可避免地存在安全风险。无人机(unmanned aerial vehicle, UAV)为输电线路提供了一种新的巡检方式,即从多个角度拍摄密集的输电线路巡检图像,建立事后人工查看照片的工作模式。“拍照和查看”的工作流程带来了巨大的工作量,因此开发一种智能缺陷检测方法来自动检查传输缺陷照片至关重要。

用于定位和分类目标物体的目标检测算法有望实现传输缺陷照片的自动检查。在深度学习发展前,目标检测依赖于基于图像处理的手工设计算法,如光流法、帧差法等。然而,传统方法普遍抗干扰、抗噪声能力较差,且较难适应光照变化。当前,基于深度学习的两阶段目标检测算法在精度上有着较好的表现。

由于架空线路上的鸟巢以及塑料袋、碎布等挂空悬浮物目标多数为小目标,其包含像素少,且容易被背景干扰,导致检测较为困难。此类小目标物体的检测有着长远的研究价值,一直广受关注。一些研究证明组合不同特征层可以提升小目标检测的效果。文献[2]利用特征金字塔融合机制构建图像金字塔,并将金字塔4 个不同特征层学习到的特征与SSD (single shot multibox detector)框架的原始特征进行融合用于获取全局信息。此外,他们将上一层与本层的特征进行合并以获取到局部信息。文献[3]除了组合卷积层和反卷积层的特征图外,还在“编码器-解码器”架构中使用了反卷积层,进一步提高了检测效果。除了组合不同特征层,获取上下文信息也被证明可用于提高小目标检测的效果。其中,基于注意力机制的方法通过为提取的特征分配不同权重以实现更好的上下文关联效果。挤压和激励网络(squeeze-and-excitation networks,SENet)[4]找到输入特征中每个通道的重新校准权重,并使用这些权重来提升重要通道。卷积块注意模块(convolutional block attention module, CBAM)[5]使用通道注意和空间注意来校准特征并学习更好的表示,以便网络可以在下游任务上表现更好。汇集和激发模块(GE)[6]在全局级别聚合特征,并使用汇集的信息增强局部特征的重要组成部分。

当前已有一些研究试图验证深度学习在输电线检测中的有效性。文献[7]提出了一种结合卷积神经网络和支持向量机的对绝缘子状态进行分类的方法。文献[8]介绍了深度隐含网络在绝缘子分类任务中的有效性。这两篇论文都展示了深度学习方法在传输线检测领域的潜力。一些研究人员尝试使用基于深度学习的目标检测方法来定位输电线路塔上的组件。文献[9]构建了一个具有两个前景类对象的数据集,并训练了一个六层的神经网络。文献[10-12]采用更快的基于感兴趣区域的卷积神经网络(faster R-CNN[13])算法。文献[14]提出了一种基于YOLO 算法的绝缘体和减振器检测模型。这些研究仅应用基于深度学习的对象检测方法来定位塔上的组件,但未能检测到传输线照片中的缺陷。

在深度学习与输电线路的结合中,越来越多的研究集中在缺陷检测[15-16]上。采用的方法主要分为两阶段方法(如Faster R-CNN[17-18])以及一阶段方法(如YOLO 或SSD)。文献[15]采用基于区域候选的卷积神经网络模型,实现绝缘子的端到端智能检测,并可以检测出故障爆炸的坐标。文献[19]通过基于 Faster R-CNN 以及U-net 来检测破损绝缘子的位置。文献[20]采用3 种方法对输电线路异物实际数据集进行测试验证,讨论了不同参数对识别结果的影响。文献[21]进行了预测架构的级联设计和并行目标检测结果的逻辑推理,该机制可以更快地提高算法在实际项目下的应用效果。文献[22]基于YOLO 搭建检测系统,使用无人机自动检查电力传输塔和绝缘体。文献[23]引入了超分辨率卷积神经网络来增强绝缘子或阻尼器故障的训练数据。文献[24]利用了在线硬样挖掘和样本平衡等的优点。这些研究为输电线路航拍图像缺陷检测提供了初步的解决方案。

本文提出了一种基于注意力获取和Soft-NMS的传输线路中鸟巢与挂空悬浮物的检测算法。对比实验结果表明,提出的方法可以有效地提高输电线路鸟巢与挂空悬浮物的检测效果。本文的主要贡献为:

1)设计了一种基于注意力机制和ResNet 的主干网络,允许提取的特征进行自适应权重调整,更充分地进行上下文信息的学习,有利于鸟巢和挂空悬浮物这类小型目标的检测;

2)将Faster R-CNN 中的后处理程序换为Soft-NMS。用于减少同类别检测框重叠时的漏检情况,防止小目标的丢失。

1 整体网络架构

本文设计的检测网络整体框图如图1 所示,其主要由特征提取模块和检测模块两部分组成。

图1 网络整体架构

首先,对输入的无人机图像进行尺寸缩放、填充和归一化等预处理,接着将预处理后的图像输入特征提取模块,获得其深层特征表示,以进行下一步的检测。随后,将获得的图像特征输入检测模块,结合区域建议网络产生的密集锚框和预设的筛选机制,获取本文感兴趣的鸟巢和挂空悬浮物的区域,并进一步使用全连接层对感兴趣区域中缺陷的位置和类别进行检测,输出两种缺陷的具体位置、标签和置信度。最后,对输出的检测框进行滤除和非极大值抑制等后处理,输出最终网络认为属于鸟巢和挂空悬浮物的检测结果。

2 特征提取模块

本文设计的特征提取模块主要包括主干网络和特征金字塔结构,如图2 所示。

图2 加入特征金字塔网络的Resnet50-CBAM 图解

2.1 主干网络

主干网络被设计为嵌入注意力模块的ResNet50[25]组合式结构。主干网络主要包括C1,C2,C3,C4,C5 共5 个部分。其中,C1 部分由一个卷积层、批归一化层[26]、Relu 激活函数[27]和最大池化层构成。C2,C3,C4,C5 则由参数不同而结构相同的融入注意力机制的残差块堆叠构成,所使用残差块的数量分别为3,4,6,3。预处理后的无人机图像将依次通过C1,C2,C3,C4,C5 五个部分提取特征。

融入注意力机制的残差块是所提出主干网络的基础结构,如图3 所示。每一个残差块会在输入端将输入的特征信息保留,并在末端将输入端特征信息与输出进行融合,以防止网络深度过深时梯度消失或梯度爆炸以及退化问题的发生。每个残差块由3 个卷积层(分别为一个1×1 卷积、3×3 卷积和另一个1×1 卷积)提取特征,本文选择在每个残差块的3 个卷积层提取特征后,加入卷积块注意力模块,对残差块提取的特征进行更加合理的权重分配。这样的操作允许网络在训练过程中,学习到更应该关注小目标的哪些信息,从而更好地判断小目标的位置和类别。

图3 ResNet50-CBAM 中残差块的结构图

推断一个小目标的类别和位置并不一定只依赖其本身的少量像素,还可以利用其周边信息,即上下文信息。如鸟巢更有可能出现在输电塔而不会出现在输电线路上。本文使用了CBAM 结构来有效地提供这种上下文信息。

CBAM 是一种由卷积层、全连接层、激活函数等组成的有效的注意力模块,结构如图4 所示。给定一个尺寸为C×H×W的中间特征图,CBAM 会依次计算出通道注意力图和空间注意力图,并分别将其与输入注意力模块的特征图进行广播相乘,以实现考虑了上下文信息的参数优化,如式(1)所示。

图4 卷积块注意力模块结构图

式中,F为输入的张量;F′是学习到上下文信息的输出张量;Mc与Ms分别为通道注意力和空间注意力的获取过程。两个过程可以分别表示为:

式中,A vgPool()和 M axPool()分别为全局平均池化和全局最大池化操作;f7×7为卷积核大小为7×7 的卷积层。

如图中通道注意力虚线部分所示,在通道注意力图的获取部分,特征图F分别经过基于宽度W和高度H的池化操作后,得到两个C×1×1 的特征图。然后,将它们分别送入一个两层的全连接层,并将输出结果执行对位相加操作。最后,将注意力图和特征图F进行对位相乘,得到通道注意力校正后的特征图。

如图4 中空间注意力虚线部分所示,输入特征图首先通过基于通道维度C的池化操作得到两个1×H×W的特征图,然后将这两个特征图在通道维度上进行拼接得到2×H×W的特征图。接下来,经过一个卷积核大小为7×7的卷积操作,将特征图重新降维为单通道。再经过Sigmoid 激活函数生成空间注意力图。最后将该注意力图和与空间注意力部分的输入特征图进行广播相乘,得到最终同时考虑了通道注意力和空间注意力的特征图。

2.2 特征金字塔结构

浅层的网络更关注像素本身包含的信息,深层次的网络则可以提炼出更准确的语义信息,因此深层次的网络更有利于准确的检测出较大的目标。Faster R-CNN 只在最终特征图上进行预测,然而图像中存在不同尺寸的目标,通过深度确定的网络输出的结果并不一定完全适配。而网络深度增加后,也有可能在下采样过程中丢失小目标的信息。本文所采用的特征金字塔的设计思想就是融合主干网络中提取的低层特征和高层特征,并且分别在不同的层同时进行预测,尤其能够有效改善小目标的检测效果。

如图2 所示,特征金字塔网络以主干网络的C2、C3、C4、C5 结构输出的特征图作为输入,从语义信息最为丰富的最高层也就是第五层开始,进行上采样然后与第四层对位相加。融合特征图进一步与第三层以相同操作融合,依次操作,第二层融合特征图融合了所有上层的信息。各融合特征图分别经过卷积层生成用于预测的特征图。第五层融合特征图还通过最大池化层产生仅用于在区域建议网络中生成锚框和建议框的更高层特征图。

3 检测模块

在检测模块中,首先通过过滤预先设定的锚框,获得代表前景区域的建议在RPN 中的坐标;然后将其投影到特征提取模块生成的多尺度特征图上。根据提出的方案在特征图上分割特征矩阵,并利用ROI 池化层进行平化。然后,分别通过回归层和Soft max 层得到预测位置和标签信息。最后,利用后处理方法对网络的冗余输出进行过滤。

后处理算法采用柔和的非极大值抑制(Soft-NMS)算法[28]。执行过程如下。该算法对鸟巢和挂空悬浮物两个类别分别执行。Soft-NMS 算法伪代码如下。

4 损失函数

损失函数直接移植于Faster R-CNN 的损失函数。主要包括区域建议网络和检测网络两部分损失。其中区域建议网络的损失可以表示为:

式中,Lcls表示前景背景的分类损失,类型为交叉熵损失;Lcls为初步的边界框回归损失,类型为光滑的L1损 失;pi表 示第i个锚框预测为真实标签的概率;为正样本时为1,为负样本时为0;ti表示预测第i个锚框的边界框回归参数;表示第i个锚框对应的真值框;Ncls表示一个批次中的所采样的样本数量;Nreg表示特征图中生成锚框的位置的个数。

Fast R-CNN 检测网络的损失为:

式中,Lcls表示类别分类损失,类型为交叉熵损失;Lloc表 示边界框回归损失,类型为光滑的L1损失;p为分类器预测的softmax 概率分布;u为对应目标类别的真实标签;tu为边界框回归器预测的对应类别u的回归参数;V对应真实目标的边界框回归参数

5 实验过程

5.1 数据集

本文使用的数据集为无人机采集的输电线路图像,共有2 701 张。其中包括鸟巢图像1 542 张,挂空悬浮物图像1 159 张。数据集中小目标(被定义为目标边界框小于 3 2×32像素或宽高与图像的宽高比例小于0.1 的目标)较多,如图5 所示。此外,数据集图像中铁塔结构和传输线路交错,有着复杂的背景,给检测小目标带来了较大的难度。所有真值框的标注均由变电站工作人员通过数月标注完成,并以XML 文件的形式与无人机图像一同保存为PASCALL VOC 数据集格式。所有无人机采集的输电线路图像都为高质量的PNG 格式。数据集中真值框的尺寸分布如图6 所示,小目标的数量大,颜色密集。据统计,小目标占比高达31%。

图5 数据集中的小目标样例

图6 测试集中真值框的尺寸分布

将2 701 张无人机图像以8:2 的比例随机制作成训练集和测试集,其中训练集和测试集分别包含2 160 幅和541 幅图像。在实验过程中,始终保持训练集和测试集的严格分离。

5.2 数据增强

在实验中使用随机翻转、亮度变换、仿射变换、图像锐化、噪声等对原始图像进行5 倍原始图像数量的数据增强,如图7 所示。数据增强可以模拟不同亮度,以及无人机摄像头损坏或遭遇信号干扰等情况,从而增加网络在实际应用中的鲁棒性。

图7 数据增强图像示例

5.3 实施细节

使用了在Imagenet[28]数据集上预训练的ResNet50主干网络权重,对于加入的CBAM 结构使用凯明初始化。本文模型在2 个GPU NVIDIA GeForce GTX 2080ti 显卡上进行训练,整个网络架构进行端到端的训练。学习率预设为0.015,在前500 次迭代采用学习率升温策略(warm-up),在第12 个和17 个迭代轮次执行学习率的衰减。批次大小为16,采用SGD 梯度下降策略,动量为0.9,权重衰减为0.000 1,共训练了24 个epoch。训练的流程如图8 所示。图9 表示了训练过程中损失与测试集AP 的变化,其中浅色线条为实际值曲线,深色线条为数值平滑后的变化曲线。可见在训练后期,损失和AP 已经不再有大幅度的变化,实现了收敛状态。

图8 模型训练流程

图9 训练过程中损失与AP 的变化

6 实验结果

6.1 评估指标

除了分类的准确性,还需要对检测出的隐患的位置的准确性进行评估,因此图片分类的评估标准不再适用。平均准确率(AP)能够同时兼顾检测的准确率和召回率,是最可靠也是当前目标检测领域最常用的性能指标。AP 的计算依赖于准确率和召回率的计算。

准确率(Precision)为:

召回率(Recall)为:

式中,TP 表示成功检测到某个真值框的预测框的数量;FP 表示没能匹配到某个真值框的预测框的数量;FN 表示没能检测出来的真值框的数量。判断成功检测到的标准为交并比阈值,当检测框与真值框的交并比高于阈值时视为成功检测到物体。通常情况下交并比阈值设为0.5。

基于准确率和召回率的计算,AP 的计算流程如下:1)网络最终输出的某一类别的检测框为N个,将N个检测框按照置信度进行排序;2)依次计算排名的前1 个、前2 个、···、前N个检测框的准确率和召回率;3)将准确率作为纵轴,召回率作为横轴,依次将步骤2)中计算得到的准确率和召回率连接成线,该曲线的下面积即为该类别的平均准确率。

6.2 实验结果

将具有代表性的目标检测架构与本文模型的检测效果进行了对比,如表1 所示。所有代表性的网络架构都使用了与本文模型相同的数据作为训练集和测试集,使用相同的数据增强策略。训练过程中,所有网络架构均使用了Imagenet[29]上的预训练权重初始化主干网络,经过参数的调整达到了最佳效果,以保证对比实验的有效性。

表1 检测算法AP 对比

各架构训练所得的结果均为IOU 阈值为0.5 时的AP 检测结果。与基础 Faster R-CNN 相比,本文方法在两个类别上分别提高了约4.7%和5.9%。

训练后的网络在部分测试集中鸟巢和挂空悬浮物上的检测效果分别如图10 和图11 所示。图10中大部分鸟巢(如第二、三、五、六张)为像素占比极低的小目标,网络有着较好的检测效果。图11中,部分悬浮物(如第一、三、四张)为小目标,且存在定位较难的长条形目标(如第二、五、六张)。其中第五张由于悬浮物属于长条形,其一部分也被定位为目标。但同时,网络也检测到了整体悬浮物,在实际应用中,对检测效果影响较小。此外,本文模型在复杂的背景下,如交错的铁塔和线路构造(图10 中第三张,图11 中第一、四张)采样图像中,模型也有可观的表现。

图11 挂空悬浮物检测效果

使用热力图对提出方法的可视化结果如图12所示,其中,第一行为在原图中的热力显示,第二行为网络的热力图。方框内如期望检测的目标。第一张与第二张图像为鸟巢检测,第三与第四张为悬浮物检测。可见,提出方法对输电线敏感,存在较低热度,而对鸟巢与悬浮物极为敏感,在热力图中呈现为红色。

图12 提出方法的热力图可视化

表2 中使用基准算法Faster R-CNN 以及本文提出的方法对边界框小于3 2×32像素或宽高与图像的宽高比例小于0.1 的目标进行了检测,召回率对比显示,本文方法对于小目标的召回率更高,有效减少了小目标的漏检。

表2 小目标召回率对比

7 结 束 语

本文提出了一种基于注意力机制和Soft-NMS的两阶段传输线路目标检测方法。制作了包含鸟巢和挂空悬浮物无人机图像的目标检测数据集。该方法利用了注意力机制的优势,更好地利用了图像的上下文信息。此外,采用了更适配小目标检测的后处理算法,减少了小目标的漏检。

猜你喜欢
悬浮物鸟巢注意力
悬浮物对水质氨氮测定的影响
让注意力“飞”回来
鸟巢
重回鸟巢
鸟巢大作战
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
废水悬浮物国标检测方法的修改建议
压裂返排液中悬浮物去除的室内研究
雷州湾海域悬浮物浓度遥感监测研究