一种结构化双注意力混合通道增强的跨模态行人重识别方法

2024-03-15 09:22庄建军庄宇辰

电子与信息学报 2024年2期

庄建军庄宇辰

①(南京信息工程大学电子与信息工程学院南京 210044)

②(南京信息工程大学-中大医院智慧医疗研究院南京 210044)

1 引言

行人重识别技术(Person Re-identification)在目前迅速发展的智慧城市监控系统的建设中有着至关重要的作用。目前传统的作用于可见光图像下的行人重识别已经获得了很好的实验结果，Huang等人[1]为解决在现实各种场景下特征丢失和图像退化问题提出了一种记忆重放策略，通过训练退化编码器提取图像集的退化特征，降低退化不变性学习和下游任务训练之间的严重性遗忘。Yang[2]针对无监督行人重识别领域中背景干扰问题将前一历元的距离矩阵积分到当前历元中来生成新的距离矩阵提高动态学习过程的稳定性。Xuan[3]等人设计了实例和相机风格归一化模块(Instance and Camera Style Normalization, ICSN)，通过自适应地学习实例和批处理归一化的组合，减轻了相机内的变化以增强对域差异的鲁棒性。

但是在夜间或者光照不足的环境中，监控系统难以通过单模态行人重识别来提取有效的特征信息，实现跨模态重识别成为当前热门的研究方向。Dai等人[4]提出一种端到端交叉模式生成对抗网络(conformer-based metric GAN, cmGAN)，将类间模糊性降到最小。在此基础上，Wang等人[5]创新性提出了像素对齐的方法，利用对齐生成对抗网络(Alignment Generative Adversarial Network,AlignGAN)更好地克服了交叉模态变化。Lu等人[6]采用项目对抗策略，确保共享和特定特征之间不包含相互关联信息。

在对抗学习的过程中，提取双模态中特征间的关系，适当分配局部特征权重成为目前前沿的跨模态行人重识别方法之一。Li等人[7]提出了一种反事实干预特征转移方法 (Counterfactual Intervention Feature Transfer, CIFT)，利用不平衡场景模拟来减少模态平衡差距。Wang等人[8]设计了多粒度共享特征融合网络(Multi-Scale Feature Fusion module, MSFF)，实现完全的端到端，提取更有效的共享特征。Liang等人[9]提出了跨模态转换器(Cross-Modality Transformer, CMT)，通过模态级对齐模块补偿模态特定信息的缺失和实例级对齐模块库实例与同类查询实例对齐实现更鲁棒的模态补偿。

可见光行人重识别任务中加入注意力机制有很好的提升效果，Xu等人[10]提出多样化局部注意力网络(Diversified Local Attention Net work,DLAN)，倚靠空间注意力网络定位使各局部分支聚焦于非重叠的人体部位以提高精度。Jia等人[11]通过基于遮挡的师生空间半注意力分区方法促进了学生注意力与嘈杂的教师监督之间的合理契合。而在跨模态行人重识别的研究中，红外检测行人结果中会有很强的背景杂波，少有引入注意力机制，Ye等人[12]提出了一种动态双注意聚合学习方法(Dynamic Dual-Attentive AGgregation Learning, DDAG)，通过模态间特征关系挖掘来提取有区别的部分特征信息增强特征表示。

为了最大限度地保留可见光图像的纹理结构，降低噪声影响，强调两模态下低层次特征，避免在学习中发生对颜色的依赖性较强的情况，本文提出了一种通过结构化双注意力混合随机通道增强联合学习跨模态行人重识别方法，由图像通道可交换随机混合增强模块(Image Channel Swappable random mix Augmentation, I-CSA)和结构化联合注意力特征融合模块(Structured joint Attention Feature Fusion, SAFF)组成，采用了新的通道混合随机性增强策略(Random Hybrid Channel Augmentation, RHCA)保证了对颜色变化的鲁棒性，从而提高注意力模块的效率和精确度。

2 本文方法

2.1 网络框架

结构化双注意力可交换混合随机通道增强的特征聚合方法模型的总结构框架如图1所示，采用了以ResNet50[13]作为双流特征提取主干网络，将浅层卷积池化层和之后的4个残差块组定义为stage0～4。

图1 本文模型总结构框架

2.2 图像通道可交换随机混合增强模块

2.2.1 通道混合随机性增强策略

通道混合随机性增强策略(Random Hybrid Channel Augmentation, RHCA)借助此前对可见光图像的训练集表示，通过随机选择一个通道代替另两个通道，形成单通道新的训练集图像如图2所示。可以将可见光，单色通道以及红外模态下的三模态特征关系表示出来

图2 RGB-IR及RHCA模块强化实例演示图

其中，fm(xRi,G,B)表示通道增强后可见图像模态下的特征，通过对[0，1，2，3](0代表RGB三通道，1代表R单通道，2代表G单通道，3代表B单通道)中抽取随机数，选择输出图像的类型。

2.2.2 三重态图像感知随机擦除数据增强策略

为了提高样本丰富度以及提高对图像噪声的鲁棒性，将单通道图像作为第3模态，提出了三重态图像感知随机擦除数据增强(Triplet State Imageaware Random Erasing Data Augmentation,TRE-DA)策略。随机擦除的效果如图3所示。由于三模态下的特征学习受颜色干扰，将随机灰度变换和随机水平翻转作为该策略下的补充。

图3 随机擦除数据增强实例演示图

2.3 双流网络

为了充分利用跨模态异构信息优势，提高行人重识别的准确性和鲁棒性，本文采用双流特征提取主干网络结构来学习跨模态行人共享特征。

2.3.1 结构化联合注意力特征融合模块

长期失眠、情绪不稳、植物神经功能障碍可导致内分泌、免疫等方面的失调，进而引发躯体疾病。因此，对神经衰弱进行治疗，具有积极意义，合适用药并观察反应，当患者服药治疗时，保证给药的顺利完成，并观察患者的反应情况，及时与医师沟通。常用的治疗药物（见表2）：

在跨模态特征融合中，为了更好地利用可见光和红外图像间纹理结构的特征关联性，本文设计了结构化联合注意力特征融合(SAFF)模块，该模块分为两分支，其单一分支(Feature Aggregation Attention, FAA)分别对可见光图像和红外图像挖掘重要特征信息。模块结构图如图4所示。

图4 SAFF模块结构图

图5 SAFF模块单支FAA结构图

FAA结合了通道和空间注意力机制，在通道注意力机制中通过对ECA-net[14]的学习，引入GAP产生规格为 1×1×C的特征图，通过聚合特征y ∈RC不进行降维，通道注意力通过w=σ(P y)进行学习，P是通过对SE块改进的一个C×C的参数矩阵，所以参数量巨大，为此引入拓展矩阵并且通过一个频带矩阵Pk来捕获局部跨通道交互关系，即

Pk涉及了k个C参数，由此可以优化学习参数

C1D表示1维卷积，该式由ECA块调用，由于只涉及k个参数，在复杂度降低的情况下即可获得SEVar3的效果，提高了学习效率。

空间注意力机制中通过最大池化和平均池化，获得两个 1×H×W的特征图，然后通过Concat操作对特征图拼接，通过 7×7卷积变为单通道特征图，再经sigmoid函数获得 1×H×W空间注意力机制后的特征图，通过与通道注意力机制后的特征图卷积后获得最终的特征表示。

2.4 损失函数

本文提出了增强型联合损失(EJ-Loss)，通过通道混合学习的策略来直接优化多模态间关系。具体的，增强型联合损失是由身份分类损失Lid和增强正则化三元组损失Lsq及交叉熵损失Lk组合的总损失。

本文介绍了一种改进的平方差方法，将向量对对应维度差值求平方求和，从而对样本对之间的差异更敏感，改进的增强正则化三元组损失公式表示为

其中 (i,j,k)表示每个锚定样本每个训练批次中的三元组，dij代表正样本对之间欧式距离，dik代表负样本对之间欧式距离。在联合学习中，j和k可以来自相同模态，也可以来自不同模态。

定义ki为

这里的平方差表示为

当处理难样本时，放大样本对间的差异，从而使网络学习到更好的表征。为了通过判别特征增强类间差异，本文加入交叉熵损失以实现该目的，总损失即增强型联合损失(EJ-Loss)表示为

3 实验及结果分析

3.1 数据集和评价指标

本文跨模态行人重识别实验数据集包括两个公共数据集SYSU-MM01[15]和RegDB[16]。实验所用的评价指标包含了累计匹配特性曲线(cumulative matching characteristics)以及曲线上Rank准确率，查准均值mAP(mean Average Precision)。

3.2 实验设置

本文算法在PyTorch框架上呈现，训练评估均在NVIDIA 4 070 GPU上进行，采用ResNet50双流主干网络，利用ImageNet[17]预训练权重进行初始化加速收敛。将输入图像的尺寸均调整为144×288，采用随机梯度下降(SGD)优化器[18]进行训练，动量参数为0.3，前10轮加入热身学习，学习率从0.01均匀增加至0.1在此后保持不变，在第20轮和第50轮时学习率分别降低至当前学习率的1/10，在每次训练中分别随机抽取8个不同身份下的4张可见光图像和4张红外图像，将其8个身份作为一个批次。

3.3 对比实验结果分析

在SYSU-MM01数据集上分别在全搜索和室内搜索测试模式下通过单摄设置，使用本文方法与其他当前跨模态行人重识别先进算法的实验结果进行比较。如表1所示，相比于传统的通过对抗训练来降低类间歧义，增强模态相似性的方法如AlignGAN[5],cm-SSFT[6]，本文的实验效果更好，说明SAFF模块能够避免对抗网络下不必要的噪声，保存了原图像中的纹理信息。与Liu等人[19]在SFANET中设计的双向三约束损失相比，本文通过增强型联合损失(EJ-Loss)实现了更好的效果，说明本文提出的联合损失能够更有效地表达行人两模态间的关联性。相似地，使用双流网络来融合模态特征的方法如DDAG[12], SFANET[19]，本文使用的SAFF模块更加注重提取浅层特征，在实验结果中也优于了这两种前沿的方法。

表1 SYSU-MM01数据集在单摄设置下的实验对比结果(%)

在RegDB数据集上使用本文方法与其他当前跨模态行人重识别先进算法的实验结果进行比较。如表2所示，由于RegDB数据集每个身份下的RGB图像和IR图像姿态是对应的，所以降低了跨模态行人重识别任务的难度，早期的如MAC[24]结合模态特异身份分类器解决模态差异问题，虽然能够实现跨模态行人重识别任务，但是效果不佳。后来在研究通过优化损失函数来提高类内类间关系的方法，如LbA[25]中设计的训练端到端网络的身份一致性和密集三联体损失和MCLNet[26]引入的相机感知边际中心聚集损失，但是本文的方法在可见光图像查询远红外图像和远红外图像查找可见光图像下都取得了更好的效果。

表2 RegDB数据集上的实验对比结果(%)

3.4 消融实验结果分析

为了检验I-CSA模块，SAFF模块以及EJ-Loss的有效性，在全搜索模式下设置单摄，对SYSUMM01进行如表3所示的消融实验，使用主干双流网络ResNet50和加权正则化三元组损失作为基线(Baseline)，通过加入RHCA子模块，更加强调了行人体态结构特征，从图中可以看出加入该子模块之后Rank-1和mAP分别提高了8.6%和8.5%，当加入完整I-CSA模块后，Rank-1和mAP分别提高了11.8%和10.7%，TRE-DA子模块引入随机擦除使模型对输入图像变化更加鲁棒，减少过拟合风险。

表3 SYSU-MM01数据集上的消融实验(%)

在加入完整I-CSA模块基础上，单独加入SAFF模块(嵌于stage1后)Rank-1和mAP分别提高了3.6%和2.6%，通过FAA单支在前端残差块输出特征挖掘可见光和红外图像，提高模型对行人体态结构区域的关注度。若使用EJ-Loss作为损失函数，Rank-1和mAP分别提高了7.6%和5.0%，这也证明了EJ-Loss在处理类内类间关系时拥有更出色的表现。在完整使用了本文方法，即I-CSA模块，SAFF模块和EJ-Loss全部选用时达到了最佳的实验效果，Rank-1值达到71.2%，mAP达到68.1%。

3.5 SAFF模块嵌入位置效果研究

为了研究在ResNet50网络中的五层(stage0～4)后嵌入SAFF模块双注意力模块进行模态间特征融合后的效果，对SYSU-MM01和RegDB数据集分别对应做了相关实验如表4所示。SYSU-MM01数据集在全搜索模式下设置单摄，RegDB数据集以可见光图像查询远红外图像作为评估标准。在图6中可以发现在底层级后加入SAFF模块的效果会优于在高层级后加的效果，在底层级中包含重要的边缘和纹理结构特征，并且拥有较小的感受野和参数量，通过SAFF双注意力进行特征聚合后，能更细粒度地关注结构性特征以及提高局部特征的感知。在实验中发现在SYSU-MM01数据集上，将SAFF模块放置于stage2后的实验结果最佳，而在RegDB数据集上，将SAFF模块放置于stage3后的实验结果最佳，因此，本文通过设计选择器，通过数据集的选择灵活地嵌入SAFF模块。

表4 SAFF模块嵌入位置研究结果(%)

图6 不同stage下SAFF 模块嵌入效果对比

3.6 γ参数的取值分析

在本研究中，在SYSU-MM01数据集单摄设置下通过改变γ参数来控制交叉熵损失在整个增强型联合损失中的权重，进行γ参数不同取值对训练性能的影响实验，γ的取值区间为0以及0.1到0.9，取值间隔为0.2，实验结果如表5所示。

表5 γ参数不同取值下的训练实验结果(%)

采用多尺度优化策略，当γ=0.47时，模型训练达到最优。但当γ大于0.5时，发现由于当交叉熵损失权重过大时，模型在训练过程中忽略跨模态下共享特征的学习导致过拟合现象发生，模型性能大幅度下降。

4 结束语

本文提出了一种结构化双注意力可交换混合随机通道增强的特征聚合跨模态行人重识别方法，由图像通道可交换随机混合增强模块、Resnet50主干双流网络、结构化联合双注意力特征融合模块以及增强型联合损失构成。其中图像通道可交换随机混合增强模块主要通过对可见光图像提取单通道图像并且与红外图像进行感知随机擦除数据增强，缓解了模态偏差，提高模型泛化能力。结构化联合双注意力特征融合模块主要利用新型注意力分支对可见光和红外图像进行重要特征的强调，并通过特征融合增强模态间的联系。增强型联合损失通过身份分类损失和增强正则化三元组损失的组合，提高了对难样本的敏感度，具有出色的表征能力。在两个公共基准数据集上的实验中可以证明本文的方法在跨模态行人重识别任务相比于前沿的方法有着较好的表现效果。目前跨模态行人重识别依然有着很大的提升空间，在模态差异的解决方法中大多更注重人体姿态结构特征的捕获，如何解决姿态结构特征不稳定性带来的影响是解决实际应用问题的关键，也是今后工作的一个重要探索方向。