融合轻量级注意力机制的单目标跟踪算法研究

2024-04-16 03:24朱莹莹郭传玺

电子制作 2024年6期

朱莹莹，郭传玺

（北方工业大学电气与控制工程学院，北京，100144）

0 引言

单目标跟踪是计算机视觉领域的重要任务。在单目标跟踪中，最常见的挑战之一是目标在视频序列中的运动、尺度变化以及外观变化。传统的方法通常基于目标模型和特征匹配来进行跟踪，但是面对复杂的场景时容易受到光照变化、遮挡等因素的干扰，导致跟踪的不稳定性。近年来，深度学习技术的进步显著推动了单目标跟踪领域的发展，特别是孪生网络和注意力机制等深度学习模型被广泛运用于单目标跟踪任务，从而提高了跟踪的准确性和鲁棒性。此外，随着Transformer 模型在自然语言处理和图像处理领域的成功应用，一些研究者开始探索将Transformer 引入单目标跟踪领域，以期望通过其优秀的序列建模能力来解决复杂的跟踪问题。

尽管深度卷积神经网络在计算机视觉领域取得了显著的成就，但是仍然存在一些问题，其中ResNet50 模型以其深度和性能而闻名。然而，ResNet50 模型在捕捉长距离依赖和处理图像中的全局关系方面仍然存在一定的局限性。传统的ResNet 模型是通过跨层连接来提升梯度的传播，使得深层网络可以很好地学习浅层网络中的细节特征。然而，这种跨层连接机制在处理长距离依赖关系时可能会受到限制。

本研究的贡献在于设计了一种融合轻量级注意力机制的单目标跟踪算法，引用TransT 网络作为主干网络，在ResNet50 模型中引入一个轻量级且高效融合两种注意力机制的Shuffle Attention（SA）模块，SA 模块通过自适应地调整通道间的相互依赖关系，使得网络能够更好地捕捉图像中的重要空间信息和通道关系。该模块利用了局部感知和并行计算的策略，改善ResNet50 模型在处理长距离依赖和全局关系时的性能。

1 融合轻量级注意力机制的单目标跟踪算法研究

■1.1 算法总体框架

本文采用特征提取加特征融合加预测头的架构，将SA模块引入到特征提取骨干网络ResNet50 的每个Bottleneck残差块。融合轻量级注意力机制的单目标跟踪算法研究网络结构如图1 所示。该模型的输入是一个3×128×128 模板图像和一个3×256×256 搜索区域图像，首先通过骨干网络进行特征提取，接着使用特征融合模块融合模板和搜索区域的图像特征，最后使用预测头模块对每个向量的前/背景分类结果进行预测[1]，并对搜索区域大小的坐标进行预测。

图1 模型总体框架图

■1.2 Shuffle Attention 模块介绍

SA 模块是一个轻量级且高效融合空间注意力机制和通道注意力机制的综合模块。该模块首先将输入特征向量分成多个组，然后经过通道注意力和空间注意力的计算，对于每个头的注意力计算，会得到一个注意力权重矩阵，再将注意力权重矩阵输入到Shuffle 单元中，Shuffle 单元根据一定的策略对多头注意力权重进行重新排列，以增强模型对序列中不同位置之间依赖关系的建模能力，经过Shuffle 单元重新排列后的多头注意力权重矩阵再与原始的表示向量序列相乘，并进行加权求和操作，得到最终的注意力表示结果[2]。整个SA 模块的总体结构如图2 所示。

图2 Shuffle Attention模块示意图

1.2.1 特征分组

1.2.2 通道注意力

通道注意力分支主要用于计算不同通道之间的相互关系。首先用全局平均池化对特征图进行池化，以生成通道统计信息s ∈RC/2G×1×1，可通过空间尺寸H×W收缩Xk1来计算：

然后通过两个全连接层对池化后的结果进行缩放和移动，得到每个通道的权重值。最后，这些权重值被用于对特征图中的通道进行加权汇总，从而得到具有更强表达能力的特征。通道注意力分支的最终输出为：

W1∈RC/2G×1×1,b1∈RC/2G×1×1为用于缩放和移动s 的参数。

1.2.3 空间注意力

空间注意力分支使用Xk2上的分组卷积操作（GN）来获得空间统计信息，对提取出的特征进行归一化和加权，最后通过一个非线性函数激活，得到增强的特征。空间注意力的最终输出为：

其中W2和b2是形状为RC/2G×1×1的参数。然后将两个支路串接，使用通道数与输入数相同，即

1.2.4 特征聚合

与shuffleNet v2 类似，本文采用了一个channel shuffle 操作符，重新排列通道的维度，促进了不同特征之间的信息交换和整合，最后得到和输入X 同维的注意力图。

2 实验结果和分析

■2.1 实验环境

本文算法使用Pytorch 框架实现，使用两个公开数据集（GOT-10K、COCO17）进行训练，骨干网络是在ImageNet 上预训练的引入SA 模块的ResNet-50，模型的其他参数由Xavier init 初始化，采用AdamW 优化器，训练批次大小设置为26，骨干网络的学习率设置为1e-5，其他参数的学习率设置为1e-4，权重衰减设置为1e-4，在三张Nvidia TITAN XP GPU 上训练1000 个周期，每个周期迭代1000 次，500 个周期后学习率下降10 倍[4]。

■2.2 定量分析

为了验证本文所提算法的有效性，将本文算法和近几年国内外优秀的算法进行了对比，并详细列出了各个算法在GOT-10K、LaSOT、OTB100、UAV123 四个通用数据集上的指标得分，其中对比算法的评分数据来自参考文献原文，TransT 的评分数据是在自己现有的环境下训练测试的。GOT-10K、LaSOT 的对比结果如表1 所示。

表1 GOT-10K、LaSOT在各跟踪器上的对比结果

由表1 可以得出，在GOT-10K 数据集上，本文算法的跟踪平均重叠率达到了69.9%，比基准算法TransT 提升了1.4%。在LaSOT 数据集上，本文算法的跟踪AUC、精确度、归一化精确度分别达到了57.5%、59.2%、65.1%，比基准算法TransT 提升了1%的AUC，提升了0.5%的精确度，提升了0.6%的归一化精确度。说明了本文算法预测出来的目标中心更加接近真实目标中心，从而能够精确地定位目标所处的位置。

本文在一些常用的小规模数据集OTB100 和UAV123上评估了IAMTransT 跟踪器，同时也收集了近几年的跟踪器进行比较，评估指标包括精确度和成功率，结果如图3和图4 所示。

图3 本文算法与其他算法在OTB100 测试集的实验结果

图4 本文算法与其他算法在UAV123测试集的实验结果

在OTB100 数据集上，本文算法跟踪成功率达到了67.2%，精确度上达到了88.7%，比基准算法TransT 提升了1%的成功率，提升了0.7%的精确度。在UAV123 数据集上，本文算法跟踪成功率达到了63.0%，精确度上达到了83.0%，比基准算法TransT 提升了0.6%的成功率，提升了0.7%的精确度。通过定量实验结果可以看出，本文提出的算法相较其他的算法在跟踪的成功率和精确度上有一定优势。

■2.3 定性分析

为了更好地展示IAMTransT 算法与其他算法的差异性，本文在OTB100 数据集上选取了三个视频序列，并将IAMTransT 算法和近几年四个算法的跟踪结果显示在图像上，清晰地展示了各个算法的差异性[5]。如图5 所示，红色代表本文的算法，绿色代表Ground-Truth，白色代表DaSiamRPN 算法，紫色代表GradNet 算法，蓝色代表TransT 算法，黑色代表TCTrack++算法。

图5 可视化对比图

Box 视频序列面临的是快速移动与形变的问题，在第121 帧的时候，目标发生了形变，本文的算法依然能够准确地跟踪目标。Coke 视频序列面临的是光照的变化，图片中可以看出本文的算法一直稳定地跟踪目标。Woman 视频序列面临的是遮挡的问题，在第176 帧时遭遇车辆的遮挡，本文的算法依然能够成功跟踪并且比其他算法更加接近真实边界框。本文算法在目标发生形变、光照变化、遮挡等情况下具有良好的精确性和稳定性[6]。

3 结束语

本文引入了SA 模块到特征提取骨干网络ResNet-50的每个Bottleneck 残差块中，经过大量实验验证，本文算法在4 个通用的数据集（GOT-10K、LaSOT、OTB100、UAV123）上均取得了优秀的跟踪效果，此外，本文还进行了大量的对比实验，实验结果表明本文的模型在目标跟踪成功率和精确度方面取得了显著的提升。这证明了本文所提出的方法在解决复杂背景下的单目标跟踪问题上具有优势，具有一定的实用价值。