一种改进的DETR输电线通道山火烟雾检测方法

2024-03-05 01:41政,何
小型微型计算机系统 2024年3期
关键词:山火烟雾像素

张 政,何 慧

(华北电力大学 控制与计算机工程学院,北京 102206)

0 引 言

高压输电线路通道巡检是保证输电网安全最重要的措施之一,但是由于高压电塔分布范围较广且多处于山岳丛林地带,导致人工巡检作业难度大、时间长、危险多、效率低.为了解决上述问题,使用无人图像采集装置(如杆塔上的固定采集设备、摄像头、无人机照相等)对输电通道上的关键对象进行检测,均可以改善人工巡检面临的各种困难[1],然而在对采集到的图像处理时,准确率受制于检查人员的观察技能水平,同时还存在视觉疲劳导致漏检率上升的隐患[2],所以基于目标检测方法对输电线路巡检图像进行处理具有重要研究意义.

在山火烟雾检测领域目前的主流技术主要分为两大类,一类是基于视频的烟雾检测算法,此类算法大多数基于光流法,赵敏等人[3]提出了一种基于多种纹理特征的烟雾检测算法,该算法在在背景建模时融合了视频像素点的时间和空间信息.李澎林等人[4]提出一种基于光流和YOLOv3[5]的烟雾检测方法,该方法通过光流算法对目标进行初筛,然后再用YOLOv3检测.吴凡等人[6]提出一种基于时空域深度学习的烟雾视频检测方法.利用分块运动目标检测方法提取烟雾视频的运动目标,过滤非烟雾目标.

另一类是基于图像的山火烟雾检测算法,程淑红等人[7]提出一种融合了改进的混合高斯YOLOv2[8]的烟雾检测算法.Valikhujaev Y等人[9]提出了一种基于卷积神经网络的火灾检测方法,并使用小尺寸滑窗和空洞卷积来进一步提升精度.李钢等人[10]依据差分图像的像素值呈正态分布提出了一种改进的局部三值模式(CLLTP),进而提出了基于CLLTP的组合特征模型(M_CLLTP).LI P等人[11]提出了基于Faster-RCNN[12]、R-FCN[13]、SSD[14]和YOLOv3等框架的火灾检测模型,并进行实验证明基于神经网络的火灾检测算法的精度高于传统算法.由于烟雾的形状和颜色变化多端相比其它目标有极大的不确定性,并且输电通道图像背景极其复杂,而传统图像检测方法存在泛化能力较差和需要人工设计特征提取方式的缺点.所以,基于深度学习的目标检测算法非常契合在大量巡检图像中自动检测山火目标的需要.

图1 DETR算法流程图Fig.1 Flow chart of DETR alogrithm

为了进一步提升山火烟雾的检测精度,本文构建了真实的输电线通道山火数据集,并基于DETR[15]构建了一个山火检测算法用于输电线通道图像自动处理方面的工作.本文主要贡献如下:1)为了进一步提高DETR算法对烟雾的检测精度,加入多尺度特征信息,提高该算法对底层特征的感知能力;2)在Transformer结构中加入相对位置编码,提高自注意力机制对相对位置信息的学习能力,提高检测精度;3)利用CIOU来改进算法损失函数,以解决GIOU难以优化的问题.4)采用真实采集到的输电通道山火图像进行多种主流目标检测算法的对比实验,可为相关研究提供参考.

1 DETR算法原理

1.1 整体结构

DETR检测算法主要由3部分组成,即主干网络(Backbone)、Transformer和预测头(FFN),总体结构如图 1所示.图像先通过由残差网络(Residual Network,ResNet)组成的主干网络提取一组特征图,然后将提取的特征与其位置编码(Positional Encoding)相加传递到编码器(Encoder)中,同时将一定数量的对象查询(Object Queries)嵌入解码器(Decoder)作为输入,解码器的每个输出会被传递给一个前馈网络(Feed Forward Network,FFN),该网络预测一个目标(类和边界框)或一个背景类.

最后将检测结果与真实值(Ground Truth)进行基于匈牙利算法(Hungarian Algorithm)的二分图匹配计算损失.DETR将检测视为集合预测问题,根据对象和全局上下文的关系,直接输出最终的预测集,将需要手工设计的组件如非极大值抑制(Non-Maximum Suppression,NMS)和锚点框(Anchor Box)删除,实现了端到端的自动训练和学习.在通用数据集中,DETR的平均精度(Average Precision,AP)为42%,超过了经典的Faster-RCNN算法,这是第1次将 Transformer 用于目标检测领域.

1.2 Transformer模型

Transformer[16]最初被用在自然语言处理(Natural Language Processing,NLP)领域里面的序列到序列的自回归任务,DETR相比之前主流的目标检测算法最大的不同就是引入了Transformer结构.Transformer为编码器-解码器的结构,利用多头自注意力(Multi-Head Self-Attention,MHSA)机制和前馈网络,完全消除了递归和卷积,总体结构如图2所示.

图2 Transformer结构图Fig.2 Transformer structure

Encoder和Decoder中自注意力机制会进行全局计算,也就是说特征图上的任意一点都会和整个特征图进行交互,从而发现它们之间的潜在联系.虽然自注意力可以提取到某个像素和其它像素之间的潜在联系,也就是图像中的全局信息,但是由于Transformer不包含递归和卷积,而是完全由注意力组成,所以会丢失输入数据中的位置信息,因此需要在输入Encoder和Decoder之前加入位置编码.

Transformer模型

Transformer最重要的一个机制就是多头自注意力机制,自注意力机制(self-attention)可以描述为公式(1)~公式(4):

Q=XWQ

(1)

K=XWK

(2)

V=XWV

(3)

(4)

公式(1)~公式(4)中X是由主干网络提取的特征向量,WQ、WK和WV是权重矩阵,开始时随机初始化并通过训练过程进行优化,Q、K和V分别是查询向量、键向量和值向量,d是输出矩阵Z的维度,最后通过公式(4)计算出输出矩阵Z,其中的每个元素代表了应该被给予关注度的大小.

由于特征子空间受限,单头自注意力的建模能力比较粗糙.为了解决这个问题,Vaswani等人提出了一种多头自注意力机制,该机制将输入线性映射到多个特征子空间中并通过不同的线性变换对Q、K、V进行计算,最后将所有自注意力的输出拼接到一起.MHSA的计算过程可以表述为:

Qi=XWQi

(5)

Ki=XWKi

(6)

Vi=XWVi

(7)

(8)

MutilHead(Q,K,V)=Concat(Z1,Z2,…,Zh)Wo

(9)

公式(5)~公式(9)中h表示注意力头的数量,Wo表示一个可以通过训练学习的权重矩阵,Qi、Ki、Vi和Zi分别代表第i个注意力头的查询向量、键向量、值向量和输出矩阵.图3中显示的是Encoder中自注意力可视化后的结果,即算法重点关注的区域.

图3 Encoder中的Self-Attention可视化图Fig.3 Self-Attention visualization in Encoder

1.3 损失函数

DETR算法框架的最后一部分是用前馈网络来对类别和检测框进行预测,由于本文只检测山火烟雾这一个类别,所以类别结果由背景和山火烟雾组成.而位置信息是从前馈网络中输出的N个检测框中进行选取,这里N是算法输出检测框的默认数量,一般情况下这个数量远大于图像中目标的数量,也就是说无论图像中的目标有多少,算法最终都会输出N个检测框,但是这些检测框会通过二分图匹配方法和真实框进行一对一匹配,没有匹配到真实框的检测框会被归为背景类,所以DETR算法不需要非极大值抑制这一步骤.

DETR计算损失函数分为两步:先定义好检测框和真实框的匹配代价表示为公式(10):

(10)

(11)

公式(11)中,λiou和λL1分别为GIOU损失和L1损失的权重系数,LGIOU是GIOU损失函数,LL1是L1损失函数.通过定义好的匹配代价便可以得到真实框和检测框的最优二部图匹配,然后可以根据匹配的结果计算损失函数,可以表示为公式(12):

(12)

2 改进后的DETR山火检测模型

2.1 相对位置编码

DETR使用了绝对位置编码来对图像像素的位置信息进行表示,绝对位置编码可以让输入序列的每一个点都获得单独的位置表示,但是像素和像素之间的相对距离无法被模型学习到,比如像素1和像素2比像素1和像素3的距离更近或更远.因此为了弥补绝对位置编码的这个缺点,本文加入了相对位置编码.加入相对位置编码(Relative Position Encoding,RPE)[18]的Transformer最初被用在机器翻译领域并提高了翻译质量.本文采用了一种二维图像相对位置编码方法,即图像RPE(Image Relative Position Encoding,IRPE)[19],具体内容如下:

由于图像的像素数量非常多,所以二维相对位置坐标i和j的取值范围很大,为了降低计算量,采用分段索引函数来将相对位置从实数转为整数从而降低计算复杂度,可以在相对距离较小的位置分配更多的可学习参数,该函数如公式(13)所示:

(13)

公式(13)中,sign()控制符号,当输入为正时输出1,输出为负使输出0,α代表分段点的位置,β控制函数的值域为[-β,β],γ可以调整函数在对数部分的曲率.为了在映射二维相对位置时加入方向信息,采用公式(14)~公式(16)表示:

Ix(i,j)=f(xi-xj)

(14)

Iy(i,j)=f(yi-yj)

(15)

r=pIx(i,j),Iy(i,j)

(16)

公式(14)~公式(16)中r为相对位置编码,会被加入到Self-Attention,p是一个可以经过训练学习的向量,共包含(2β+1)2个元素,Ix(i,j)和Iy(i,j)合起来代表一个二维索引,(xi-xj,yi-yj)是一个二维坐标,代表相对位置.Transformer模型的核心是Self-Attention,加入了相对位置编码的Self-Attention可以表示为公式(17):

(17)

Self-Attention加入相对位置编码后,自注意力机制计算流程如图4所示,虚线部分即为加入后的相对位置信息.

图4 加入相对位置编码后的Self-Attention Fig.4 Self-Attention after adding relative position encoding

2.2 骨干网络改进

DETR通过ResNet骨干网络来对图像的特征进行提取,更详细的步骤为ResNet-50最后一层的输出和位置编码相加来作为Transformer Encoder的输入,虽然高层感受野较大,但经过了32倍下采样丢失了很多细节信息,同时,使用简单的单一检测层导致多尺度信息略显缺乏,由于输电线图像采集设备拍摄距离不同和山火烟雾非常多变的特点导致目标尺寸大小差异明显.所以,本文在DETR的主干网络里加入了多尺度信息也就是使用ResNet-50的后三层共同提取特征如图5所示,通过高尺度语义信息和低尺度纹理特征的融合提升算法对山火烟雾特征的检测效果,但低层感受野小,上下文信息缺乏,容易引入误检,所以又在ResNet-50的第2层加入了空洞卷积[20]来增大底层卷积的感受野,如图6所示,提升底层特征的提取效果.

图5 多尺度特征信息示意图Fig.5 Schematic diagram of multi-scale feature information

图6 空洞卷积示意图Fig.6 Schematic diagram of dilated convolution

2.3 改进损失函数

DETR算法的边框损失由GIOU和L1损失组成(公式(11)),其中GIOU损失函数由公式(18)、公式(19)组成:

(18)

(19)

其中b表示预测框,bgt表示真实框,c为能够包住他们的最小框,GIOU的取值为(-1,1],但是GIOU有以下缺陷:当真实目标框完全包围预测框时,无法区分出相对位置关系;GIOU在开始训练时需要将预测框放大和标注框相交,随后开始缩小检测结果与标注框重合,所以需要更多的迭代次数才能收敛.

而CIOU[21]则可以解决上述问题:CIOU的惩罚项基于中心点距离和对角线距离的比值,避免了GIOU在两框较远时难以优化的问题,收敛速度更快;即使在真实目标框完全包围预测框时也可以进行优化;CIOU考虑到了预测框和真实目标框的长宽比,CIOU损失函数由公式(20)~公式(22)组成:

(20)

(21)

(22)

其中,wgt和hgt分别为真实框的宽和高,w和h分别为检测框的宽和高,m(b,bgt)是预测框和目标框中心点的欧式距离.所以经过改进后的DETR边框损失函数为公式(23):

(23)

将Lbox代入Lmatch(公式(10))和LHungarian(公式(12))即可得到改进后的损失函数.

3 分析与讨论

本文实验中训练和测试算法的硬件设备和软件环境是:Nvidia Tesla V100-PCIE-32GB图像处理器,Intel Xeon Gold 6271c @2.60GHz中央处理器,Linux CentOS 3.10.0 x86_64操作系统,Pytorch 1.10.0深度学习框架,CUDA版本为11.2,Python版本为3.8.

3.1 数据集预处理

本文所使用的模型主要是针对高压输电线通道存在的山火烟雾目标进行检测,数据集来源于电网的实际拍摄图像,拍摄工具为电塔上的摄像头,由于山火目标的特殊性所以采集到的图像较少,总共1933张,将训练集、验证集、测试集划分比例设定为 8∶1∶1,得到训练集1565张图像,验证集174张图像、测试集194张图像,并通过 LabelImg 标注工具对所有样本图片进行标注.本文所要检测的山火烟雾如图7所示,由于输电线通道巡检图片的特殊性,导致图片背景复杂且山火烟雾目标尺寸差异较大,从而导致算法训练难度较大,为保证模型训练效果,同时提升训练效率,使用在线数据增强,即在训练的每一批次之前对图像进行随机旋转、调整色彩空间等方法对图像进行变化.

图7 输电通道山火烟雾样例图Fig.7 Sample diagram of mountain fire smoke in transmission channel

3.2 模型评价指标

本文使用IOU为0.5时的精度(Precision,P)、召回率(Recall,R)、平均精度(Average Precision,AP)和F1分数(F1Score,F1)来对模型的性能进行评价.其中,精度P和召回率R定义如公式(24)和公式(25)所示:

(24)

(25)

本文中,TP(True Positive)为检测框和真实框IOU>=0.5的数量,也就是正确检测到的山火烟雾目标数量,FP(False Positive)为检测框和真实框IOU <0.5的数量,也就是检测到错误目标数量,FN(False Negative)为没有被检测到的山火烟雾的数量,也就是漏检.

AP的计算如公式(26)所示,其中r为召回率,AP即为P-R曲线下的面积:

(26)

F1综合考虑了算法的P和R,计算为公式(27)所示:

(27)

3.3 模型训练

为了提高山火检测模型的训练效率,采用基于CoCo数据集预训练权重对DETR的骨干网络ResNet-50进行权重初始化,模型训练过程中,将输入的图像的最大边统一限制在640像素,最大迭代数为300轮,使用的是AdamW优化器,其中骨干网络初始学习率为0.00001,其它部分初始学习率为0.0001,权重衰减率为0.0001,batch_size设为4.

图8展示的是算法训练过程中验证集上的平均精度曲线,其中短点折线为原始DETR算法,实心折线为本文改进后的DETR山火检测算法,从中可以看到,DETR算法在验证集上收敛于AP(IOU=0.5)=70%附近,而经过改进后的本文算法在经过231轮迭代后收敛于AP(IOU=0.5)=75%附近.

图8 平均精度变化曲线Fig.8 Average accuracy variation curve

3.4 算法对比

DETR算法在加入不同策略后的实验结果如表1所示.

表1 加入不同改进策略效果Table 1 Effect of adding different improvement strategies

第1行为原始DETR算法,在未加任何改进措施的情况下AP为78.52%,在此基础上加入多尺度特征信息融合和空洞卷积使得AP总共提升了3.08%,加入相对位置编码使得AP提高了2.72%,最后使用所有改进后总共提升了6.25%,达到84.77%.

为了进一步验证本文算法的性能,在测试集上与7种具有代表性的目标检测算法 CenterNet、SSD、Faster-RCNN、YOLOv3、RetinaNe、YOLOv5-x以及Deformable DETR进行对比实验.实验结果如表2所示.

表2 本文模型与其他检测模型的对比Table 2 Comparison of the proposed model with other detection models

由表2可知,CenterNet虽然精确度为97.52%,但是召回率只有29.57%,SSD和RetinaNet精度可以到80%以上,但是召回率同样较低,相比之下DETR虽然无论是精确度还是召回率都达到了较高的水平,本文在DETR的基础上进行改进,达到了对比算法的最高检测精度P=86.39%和最高召回率R=88.42%,同时平均精度提高了6.25个百分点.

为了直观的对比改进前后算法的检测效果,使用训练出来的最优权重在测试集中进行测试,选取同一张图像进行对比,如图9所示,其中第1列为原始DETR算法检测结果,第2列为本文改进后的DETR算法检测结果,可以看到第1张照片中原始DETR检测框没有将烟雾目标全部框住,而本文改进后的烟雾检测算法较为精确的检测出了所有烟雾目标;第2张照片中DETR算法产生了误检测,而改进后的DETR算法没有产生误检且检测框更加精准;第3张照片中DETR产生了冗余框并且没有将烟雾全部检测出,改进后的DETR将烟雾目标完整的检测了出来.

图9 算法检测结果对比Fig.9 Comparison of algorithm detection results

4 结 论

针对人工和传统目标检测方法对输电线通道山火进行图像检测容易造成漏检和误检的问题,本文提出了一种基于改进DETR的输电线通道山火检测模型,构建了1993张包含山火烟雾目标的输电线通道数据集以此为基础进行算法训练和对比实验,并通过多尺度特征信息融合、加入相对位置编码和利用CIOU改进损失函数,最终建立了最优的山火检测模型,实验结果表明,改进后的DETR山火检测算法的平均精度为84.77%,F1得分为0.87,在这两个指标上均高于Faster-RCNN、SSD、YOLOv3、YOLOv5-x、Deformable DETR、RetinaNet、CenterNet和原始DETR算法,并在AP上超越原始DETR算法6.25个百分点,可为后续输电线附近的山火烟雾目标检测提供参考.

猜你喜欢
山火烟雾像素
赵运哲作品
像素前线之“幻影”2000
薄如蝉翼轻若烟雾
影视剧“烟雾缭绕”就该取消评优
“像素”仙人掌
美国加州各地山火肆虐 已造成6名消防员死亡
咸阳锁紧烟雾与尘土
山火难熄
高像素不是全部
会下沉的烟雾