HRformer：基于多级回归Transformer网络的红外小目标检测

2024-02-29 14:38杜妮妮单凯东王建超

红外技术 2024年2期

杜妮妮，单凯东，王建超

（1.浙江工商职业技术学院，浙江宁波 315100；2.浙江摩根集团有限公司，浙江宁波 315012）

0 引言

相比于可见光图像容易受到自然界中光照条件、气象、目标遮挡等因素的影响，难以对目标准确地进行捕获和观测，红外图像由于其特殊的成像机理，能够将目标物体与周围环境之间的热辐射差异反应为红外图像中的灰度差异，具有较强的抗干扰能力、较强的夜间探测能力以及更高的精度，广泛应用于军事、安防、航空航天等领域。近些年来，随着红外技术的发展，从红外图像中对小尺寸目标进行高效检测引起了学术界广泛的关注[1]。

相较于普通的自然图像目标检测任务，红外小目标检测通常面临着来自多个方面的挑战：①由于成像距离远，导致红外目标占整幅图像比例较小，通常不到0.15%；②红外辐射能量随距离显著衰减，使物体看起来非常模糊，因此缺乏特定的形状及纹理，使得单纯以目标为中心的表示方法不足以进行可靠的检测；③原始红外图像中通常包含不同类型的干扰，如高亮度背景、混合噪声等，导致信噪比较低，目标容易被噪声所淹灭，难以实现检测。

为了高效、准确地检测出红外小目标，早期的研究主要基于背景抑制的方法，通过在图像上滑动一个特定大小的窗口来增强目标同时抑制背景实现实现小目标检测，如：高帽滤波[2]、最大平均滤波以及最大中值滤波器[3]，然而这类方法只能对特定的均匀噪声实现一定程度的抑制，在处理红外图像中复杂多样的背景噪声时效率低下，会产生大量的虚警，难以满足实际要求。此外有学者还受到人类视觉系统的启发[4-6]，假设目标是一个与背景有显著灰度差异的局部区域，基于滑动窗口，对比中心像素与相邻像素之间的差值或比值来实现小目标检测。然而，由于红外辐射的远距离衰减以及目标本身的较弱的辐射强度，红外图像中的小目标往往具有较低的灰度值，并不总是满足此类方法的假设。还有学者将低秩表示以及稀疏分解引入到红外小目标检测领域[7-10]，其中Zhang 等人[11]提出了一种用于稀疏目标分离和低秩背景的对角块自适应目标约束表示方法；Guo 等人[12]提出了ReWIPI 检测算法在保留背景边缘信息的同时对背景斑片图像进行限制。然而这些方法仅仅在处理一些高信噪比的红外图像时有效，对复杂背景下形状复杂的目标仍然存在较高的误警率。总的来说，上述这些基于模型驱动的方法不需要大量的标注数据，可以为特定的场景获得更好的效果。然而，对于复杂多变的真实场景，存在着检测精度差、特征识别能力不足、对场景变化敏感的超参数等问题。

考虑到深度学习可以将红外小目标检测任务视为一个相对较高级的视觉感知问题，为了解决复杂多变的真实场景中的精确检测问题，近些年来，许多研究人员开始通过构建神经网络实现红外小目标检测[13-14]。与模型驱动的方法不同，基于卷积神经网络（convolutional neural networks，CNN）的方法具有以数据驱动的方式学习特征的能力。Dai 等人[15]在模型驱动的基础上提出了一个深度神经网络模型（attentional local contrast networks,ALCNet），克服了单纯模型驱动方法所面临的检测性能不足以及鲁棒性欠缺的双重挑战。然而，该方法在需要手动调整模型参数，导致最终的小目标检测效果对模块超参数的设置较为敏感。之后，Wang 等人[16]采用了一种基于生成对抗网络的MDvsFA（Miss Detection vs.False Alarm），能够实现漏检以及虚警之间的权衡。Chen 等人[17]采用UNet 作为骨干网络来保持空间分辨率和语义信息，利用金字塔池模块进一步提取特征，提高了目标分割的精度，此外还提出了一种多任务框架降低了模型复杂度同时显著提升了算法的推理速度。为了在更大的感受野中检测目标，基于CNN 的方法[18-21]主要利用卷积层的叠加，逐层增加网络的感受域，但特征图中的每个值只响应前面特征图中局部感受域内的值，这种固有的局部性使得学习图像中的远距离依赖关系变得困难。同时，此类方法为了对不同尺度的信号进行处理通常采用池化或是下采样操作，忽略了细节损失问题。

近期，自注意力机制在各种计算机视觉任务中表现出了强大的非局部特征学习的能力并随后被其他研究人员改进和扩展[22-25]。由于其在对特征局部相似性以及远程依赖性进行建模的能力远优于CNN，因此可以用于缓解在红外小目标检测任务中单纯使用CNN 所产生的局限性。然而，采用基本的Transformer结构通常需要注意到两个方面的问题：首先，标准全局自注意力模块的计算复杂度通常与特征的空间维数呈平方关系，此外，另外一种基于局部窗口的自注意力计算模块虽然能够降低计算资源的压力，然而由于特定大小的窗口导致感受域受限。

为解决上述问题，本文在此前研究工作的基础上，提出了一种多级回归Transformer网络的红外小目标检测算法（HRformer）。针对红外场景中尺寸大小变化的弱小目标，HRformer 采用了一种多尺度特征的层次结构，在每一层，输入通过像素逆重组（PixelUnShuffle）操作所获取，不会存在信息损失。此外，为实现不同层级之间的信息交互，受到注意力机制的启发，本文还设计了一种交叉注意力融合（cross attention fusion，CAF）模块，能够从不同层级中较高分辨率以及较低分辨率的特征图中分别提取空间注意力以及通道注意力，并将二者分别与原先的特征图进行交叉融合，从而实现特征的充分提取以及不同层级信息互补。此外，为了进一步提升检测网络的准确率以及抑制虚警率，本文还采用了一种局部-全局Transformer（local-global transformer，LGT）结构，能够同时捕获局部及全局远距离依赖关系。实验结果表明，本文所提出的HRformer 具有较高的检测性能。

1 本文方法

1.1 总体框架

本文提出的HRformer 总体框架如图1所示，采用了一种三级网络结构用于实现红外小目标检测。首先，利用PixelUnShuffle 操作将输入红外图像下采样到不同层级，由于像素数是固定的，只是空间分辨率降低，而通道数增加，因此不会产生信息损失；相反，本文采用可学习的PixelShuffle 操作对每一层级的输出特征图进行上采样，由于是将特征图通道维信息转换到空间维，因此不会像双线性插值等上采样过程引入插值操作，也使网络能够自适应的学习上采样操作。

图1 基于多级回归Transformer网络的红外小目标检测框架Fig.1 Infrared small target detection framework based on hierarchical regression transformer network

对于每一层级，首先通过浅层特征提取模块进行初步特征提取以及提升特征的通道数，其中残差块由两个普通的3×3 卷积，批归一化操作；接着，通过交叉注意力融合模块分别计算不同维度注意力，实现信息交互；再通过局部-全局Transformer 结构分别沿着局部以及全局两个分支提取局部上下文信息同时建模全局依赖关系，集成了普通Transformer 结构以及基于窗口的Transformer 结构的优点，节省计算成本的同时还能获得更大感受野；最后通过一个由几个卷积组成的head 模块对所在层级的分割结果进行初步预测并与前一层级的特征进行整合。此外，顶层使用较多的残差块来有效地整合不同层级特征，从而最终产生高置信度的分割结果。

1.2 交叉注意力融合模块

图2 交叉注意力融合模块Fig.2 Cross attention fusion module

1.3 局部-全局Transformer

为缓解标准空间维Transformer 所产生计算资源消耗大的问题，基于窗口的Transformer 结构能够将自注意力[26]的计算限制在一个大小固定的窗口内，从而显著降低计算复杂度。然而这种结构通常感受野受限，一些具有高度相关内容的图像块（Tokens）在计算自注意时不能相互匹配，也就无法对全局相关性进行建模。基于此，本文提出了局部-全局Transformer结构，能够分别沿着局部以及全局两个分支提取局部上下文信息同时建模全局依赖关系，节省计算成本的同时还能获得更大感受野。总体结构如图3(a)所示，输入特征首先经过层归一化操作，通过局部-全局自注意力计算（local-global self-attention,LGSA）块（如图3(c)所示）实现基于局部-全局信息的自注意力的计算，接着进行残差连接以及层归一化操作，最后通过前馈网络（如图3(b)所示）增强模型的拟合能力。

图3 局部-全局transformer 模块Fig.3 Local-global transformer module

1）局部自注意力计算分支

2）全局自注意力计算分支

同样的，Qg、Kg、Vg会沿着通道维划分为h个head：Qg＝[Qg1,…,Qgh]，Kg＝[Kg1,…,Kgh]以及Vg＝[Vg1,…,Vgh]。对于每一个head 内的全局自注意Agi的计算过程可以表示为：

最终通过线性映射将局部分支以及全局分支的注意力计算结果进行聚合：

2 实验结果与分析

2.1 数据集介绍

本文在NUDT-SIRST 数据集[28]上进行实验，其中包含了427 张具有代表性的红外图像以及480 个小目标实例，同时为了方便和大部分方法进行比较，本文将大约50%的数据用于训练、20%以及30%的数据分别用于验证及测试。

2.2 训练环境及实验设置

本文基于PyTorch 平台对所提出算法进行实验验证，GPU 为RTX3090Ti，操作系统为Ubuntu20.04。同时本文采用AdaGrad 作为网络迭代优化器，初始学习率设为0.04，网络一共需要训练500 个epoch，衰减率为10-4，batch 大小为8。本文同一些目前较为先进的红外小目标检测算法进行对比，包括：ALCNet[15]，IAANet[29]，AGPCNet[30]，ACMNet[28]，MDvsFA[16]，WSLCM[31]，TLLCM[32]，IPI[33]，NRAM[34]，PSTNN[35]以及MSLSTIPT[36]。

2.3 评价指标

和大多数红外小目标检测方法一样，本文采用了IoU、nIoU、Pd以及Fa这几个常用的指标将所提出的HRformer 与其他方法进行比较：

交并比IoU 定义为：

IoU=Ai/ Au(6)

式中：Ai和Au分别表示相交区域和并集区域的大小；nIoU 是IoU 的标准化，即：

式中：N表示样本总数；TP[∙]表示被模型正确预测的正样本的像素数目；T[∙]和P[∙]分别表示图像中真实值和预测为正样本的像素数目。

检测率Pd表示正确检测出的目标Npred与所有目标Nall的比值：

虚警率Fa表示错误预测的目标像素数Nfalse与图像中所有像素Nall的比值：

2.4 消融实验

本文通过设置消融实验对所提出的不同模块对网络性能的影响进行分析，具体包含3 个部分：

①是否采用UnShuffle 对输入数据做下采样以及采用Shuffle 操作对每一层级的输出进行上采样操作。本文通过普通的下采样操作以及插值上采样操作对UnShuffle 以及Shuffle 进行替换从而实现对该部分有效性的验证。实验结果如表1所示，实验8 为原始HRformer 的结果，通过与实验1 的结果进行对比，可以发现IoU 指标增加了1.07，证明该处理方式的有效性；同时，本文还对实验4、实验7 这一组的结果进行对比，能够发现采用UnShuffle 以及Shuffle 操作进行的下采样以及上采样能够较好地维持原始图像的信息，使得各项指标均有所提升。

表1 消融实验结果Table 1 Ablation experimental result s

②是否采用本文所设计的交叉注意力（CAF）模块对不同层级的特征信息进行交互。通过对表1 中的实验2、实验8 以及实验5、实验7 这两组实验的结果分别进行对比，不难发现，采用CAF 模块能够显著提升检测的各项指标，证明该模块对于不同层级信息进行融合对于红外小目标检测任务的有效性。

③是否采用本文所构建的局部-全局Transformer（LGT）结构用于实现基于局部-全局信息的自注意力的计算。对表1 中实验3、实验8 以及实验6、实验7这两组实验的结果进行对比，可以看到不包含LGT 模块的IoU 指标和nIoU 指标分别降低了1.22（3.46）和0.78（3.41）。能够证明该结构的有效性。得益于对输入图像局部-全局相关性的建模，网络能够提升对特征图中的小目标的判别能力，因而检测性能显著提升。

2.5 实验结果

为了对本文所提出HRformer 红外小目标检测算法的先进性，在SIRST 数据集[28]上与现有的一些经典算法进行比较，如表2所示（最优指标已被加粗）。不难看出，传统算法由于大都基于一些手工先验，在处理具有挑战性的样例时往往受限，导致检测性能与其一些基于深度学习的方法差距较大。同时，在单纯基于CNN 的算法中，由于自身表达能力不够以及对全局信息建模能力不够，导致难以对掩码进行准确地预测，因此各项指标都较低；此外，这类算法在噪声背景下的学习判别能力比较弱，因此容易造成对目标的漏检以及错检。与这些方法相比，本文所提出的HRformer 网络，在所有的评价指标方面都表现出了最好的性能，并且相较于ALCNet，IoU 指标和nIoU 指标分别提升2.64%以及2.99%，且参数量不及ALCNet的一半；同时本文所提算法在参数量、单张图像推理时间都远少于IAANet 的情况下，还取得了更加优异的检测性能，证明了HRformer的先进性以及高效性。

表2 对比实验结果Table 2 Experimental results comparison of different algorithms

如图4所示，本文对这些检测算法的可视化结果进行了对比，不难看出，即使是在一些具有较低信噪比以及低对比度的红外图像作为输入的情况下，本文所提出的HRformer 同样能够对目标进行准确的定位，同时所检测出的目标形状大致完整且准确。这些得益于本文所采用的UnShuffle 操作对输入图像进行的下采样操作，能够避免有效信息的损失；同时LGT 模块分别对于局部以及全局进行的建模也提升了网络的表达能力以及鉴别学习能力，和其他算法的检测结果相比，较少出现漏检以及错检情况。最后，如图5所示，本文还绘制了一些算法的ROC 曲线，可以看到，本文所采用的HRformer网络的性能明显优于其他算法。

图4 不同算法红外图像检测结果Fig.4 Experimental results of different algorithms

图5 不同算法ROC 曲线Fig.5 Curves of ROC by different methods

3 结论

本文提出了一个新颖的基于多级回归Transformer（HRformer）网络来解决低信噪比、低对比度以及复杂背景条件下的红外小目标检测任务。首先，为了在获得多尺度信息的同时尽可能避免原始图像信息的损失，本文采用了Pixel UnShuffle 操作来获取不同层级网络的输入，同时采用了可学习的PixelShuffle 操作对每一层级的输出特征图进行上采样，用于提升网络的灵活性；接着，为实现网络中不同层级之间信息交互，本文还设计了一种包含空间注意力计算分支以及通道注意力计算分支在内的交叉注意力融合（CAF）模块实现特征融合以及信息互补；最后为进一步提升网络的检测性能，考虑到普通Transformer 结构具有较大感受野而计算复杂度高、基于窗口的Transformer 结构具有较少计算复杂度而感受野受限的情况，提出了一种局部全局Transformer（LGT）结构，能够在提取局部上下文信息的同时建模全局依赖关系，计算成本也得到节省。通过在SIRST数据集上与其他先进算法进行的大量对比实验，证明了本文所提出的算法的优越性。