基于改进MobileNetV2和主从网络的行人重识别方法

2024-01-17 09:54魏文芬谢文兰
贵阳学院学报(自然科学版) 2023年4期
关键词:主从视图行人

魏文芬,谢文兰,李 波

(广东培正学院 数据科学与计算机学院,广东 广州 510800)

行人重识别(Re-IDentification,Re-ID)在多个不同相机捕捉到的视图中检索感兴趣的目标。[1]随着深度神经网络技术的进步和智能视频监控需求的上升,Re-ID已成为计算机视觉中的热门研究课题。[2]

一般来说,行人重识别问题可分为基于图像的Re-ID和基于视频的Re-ID。[3]其中,在基于图像的Re-ID中,查询和图库均为图像,即图像到图像Re-ID。在基于视频的Re-ID中,查询和图库均为视频,即视频到视频Re-ID。在图像到图像Re-ID设定下,单个图像仅捕捉目标的单个视图,可能不足以表现其身份标识的多重模态分布,限制了重识别的现实应用范围。[4]在视频到视频Re-ID方面,文献[5]提出了从图像帧特征序列中学习具有区分性的全局—局部时间表征的端到端卷积神经网络(CNN)方法,以结合邻近帧之间的短期时间线索和不连续帧之间的长期关系,解决视频序列中的遮挡和噪声问题。文献[6]提出了基于多样性约束和离散度分层聚类的无监督行人重识别方法。但在许多现实场景中,图库集合通常包含大量监控视频,而查询可能仅是单张图像。这种情况下,必须在图像和视频之间执行Re-ID任务。[7]

为提高行人重识别技术的通用性,研究人员提出了将少量图像作为查询输入的图像到视频行人Re-ID方法。与基于图像和视频的行人Re-ID任务相比,图像到视频的Re-ID任务是图像和视频之间的跨模态检索任务。[8]文献[9]采用异构字典对学习和显著区域聚类方法,以传统的方式处理该任务。文献[10]将原始图像和视频映射到学习到的异构深度特征空间中,并通过深度距离度量对学习过程进行监督,其中利用CNN提取图像和视频图像帧的特征,并利用k-最近邻三元组损失,在不同身份标识上构建图像特征与视频帧特征之间的关系。

但与视频到视频Re-ID相比,图像到视频的行人Re-ID方法之间依然存在较大性能差距,查询图像数量是决定性能的关键因素。[11]学习到的表征不应受到输入网络的图像数量(例如仅一张图像)的较大影响。为填补性能差距,文献[12]提出了时间知识传播(TKP)方法,将视频表征网络学习到的时间知识传播到图像表征网络,以解决行人图像中缺少时间信息,以及图像和视频特征之间信息不对称的问题,并利用额外的分类和三元组损失,从图像和视频特征中学习更具表现力和区分性的特征。但该方法依赖于时间信息的传播,需要利用数据集的跟踪注释,实现从轨迹片段到图像帧的知识迁移。因此,时间信息迁移中存在局限性。

本文提出了基于主从网络的图像到视频行人重识别方法。其主要创新之处总结如下:(1)提出一种改进的MobileNet-V2网络,通过双重归一化改善特征空间和域适应性。(2)基于知识学习策略,将视频域网络在多视图下学习到的视觉多样性信息迁移至图像域网络,从而利用单张图像准确快速地完成行人重识别任务。

1 研究方法

所提方法是学习映射函数Fθ(S),将图像集合S=(s1,s2,sn)映射到有代表性的嵌入空间。具体来说,S为裁剪出的目标包围框序列,需要推理其相应身份标识。利用改进的MobileNetV2对Fθ(S)建模。通常,寻找两个有区分性的属性:(1)对背景和视点中差异的不变性;(2)对查询图像数量减少的鲁棒性。为此,本文采用两阶段的训练算法,具体网络框架如图1所示。

(1)针对标准的视频到视频设定,对骨干网络MobileNet-V2-IN-BN进行训练。

(2)将该网络作为主网络,并冻结其参数。其后,将同样架构的新网络作为从网络并实例化。如图1所示,将代表不同视图的图像帧作为主网络的输入,并要求从网络从少量图像帧中模拟相同的输出。

图1 本文方法的网络框架图

1.1 MobileNet-V2

一般MobileNet-V2网络架构如表1所示,主要网络层由一个或多个bottleneck组成。其中,n为该层bottleneck个数,t为该网络层中每个bottleneck的首个1×1卷积对输入通道扩张率,c为该层bottleneck的输出通道数,s为该层首个bottleneck卷积步长,其他bottleneck的步长为1。

表1 MobileNet-V2架构

1.2 改进MobileNet-V2

本文使用改进的MobileNet-V2作为骨干网络,如图2所示,结合了实例归一化和批归一化。

图2 改进后的MoblieNet-V2框架图

1.2.1实例归一化

改进前后的bottleneck如图3所示,实例归一化(IN)主要用于风格迁移任务中,利用样本统计信息在实例层面对特征响应进行归一化。其假定图像风格被编码到一阶统计信息中,即卷积特征图的均值和方差。通过对原始反转的残差bottlenecks进行归一化,过滤掉实例特定的风格差异性,使学习到的特征更具通用性。

注:(a)原始bottleneck;(b)改进后的bottleneck。图3 改进前后的bottleneck

1.2.2批归一化

利用BN作为特征标准化方法,如图3所示,在倒数第二个网络层应用BN。将图库图像{Sn}n=1,...N通过F(·)以得到未归一化的特征F(sn)∈RB×C×H×W,H和W表示空间位置,C为通道数,B表示小批中的样本数。利用全局平均池化层,将F(sn)转换为f(sn)∈RB×C×1×1。其后,在小批上使用均值μ和方差σ2对f(sn)的每个通道进行归一化:

(1)

由此,特定实例的特征将依赖于小批中其他实例,有助于网络训练的规范化。BN还有助于稳定梯度,支持更高的学习率,改善收敛速度和通用性。

1.2.3改进后的优势说明

通过利用IN和BN结合的双重归一化机制,改善学习到的特征空间对不同域的适应能力,提高通用性。具体来说,假定重识别任务中的域差异来自于图像风格和内容的差异。神经网络浅层的IN能够对域特定的图像风格(例如颜色、光照等)进行显式建模。在特征提取器之后应用BN,对不同相机角度、体型、视角、姿态等引起的内容差异进行归一化。由此,所提特征提取器降低了在不同数据集上执行重识别任务时的域特定偏差,提高模型的适应性和通用性。添加的归一化网络层增加的参数量在整个网络参数中的占比极小,可忽略不计。新增参数以端到端的方式与网络其他参数一起学习,增加的计算和存储成本很少。

1.3 主网络

本文假定来自相同轨迹片段的图像中之间存在高相关性,而这种相关性并未在知识迁移中得到充分利用。此外,将分析限制在时间域并不能确保背景外观变化时的鲁棒性。可以进一步考虑要迁移的信息,从时间迁移扩展到视图迁移,将相同目标的不同视图集成在一起,可得到更优价值的信息。此类信息很容易获得,因为很多数据集都提供了相同目标在不同相机视角拍摄的图像。利用不同视图可得到更具区分性的逐图像块模式,与轨迹片段视图计算相比,来自相同身份标识的激活更具一致性。从而提高对数据集中语义特征的捕捉能力,支持主网络将更有价值的信息传递给从网络。

对来自多个域的标注图像进行聚合,并训练模型区分所有N个身份标识。在MobileNetV2架构中,将最后一个分类层(FC)的尺寸变为N,即总标识数量。使用交叉熵(CE)损失,计算所有源域的损失:

(2)

LTriple旨在施加特征空间中的距离约束,向相同目标表征靠拢,并远离不同目标表征:

(3)

式(3)中,Sa为锚图像,Spov和Sneg分别为绝对正样本和绝对负样本。

1.4 从网络

训练主网络后,所提方法可增强整个网络的表征能力,特别是当模型仅有极少数图像可用的情况下。为此,假定可以从不同条件下描述同一个目标的不同视图。重识别任务中,通常可利用不同相机视图提高目标外观多样性,得到目标身份标识。理论上可指导一个新网络从单张图像中恢复这种多样性。一般可将该知识作为督导信号,鼓励从网络将注意力放在重要细节上,并尽量发现新的细节。

LCES=τ2KL(∂TR||∂ST)

(4)

式(4)中,τ为温度参数,∂TR=softmax(hTR/τ)和∂ST=softmax(hST/τ)为通过τ平滑后的分布,所提方案旨在匹配∂TR和∂ST。主网络的参数是固定的,则其熵也是常量,因此式(4)的目的是将∂TR和∂ST之间的交叉熵最小化。由于从网络的任务与主网络不同,式中集成了正则化项,[14]可以解决严重遗忘问题。

在拟合到主网络的输出之外,所提方法中在从网络习得的嵌入空间上施加了额外约束。具体来说,所提方法鼓励从网络遵循主网络的逐对距离。主网络得出的第i个集合和第j个集合之间的距离计算为:

(5)

则所提方法旨在将损失函数最小化:

(6)

式(6)中,DST[i,j]表示从网络的第i个和第j个集合之间的距离,Bsize为批大小。由于主网络能够访问多个视角,考虑其特征空间中的距离能够更好地描述相应身份标识。从网络方面,通过保留主网络的距离指标,提供了额外的语义知识。由此得到有效的督导信号,并通过优化增强少量图像可用情况下的重识别性能。

一般情况下,通过将学习项(LCES和LDTS)与主网络的教导项(LCET和LTriple)结合在一起,由此改善条件似然性。总之,主从学习方案的目的是通过以下优化问题,强化重识别任务中的特征:

(7)

式(7)中,δ和λ是用于对平衡总损失L的作用的两个超参数。基于经验,设δ=10-1,λ=10-4。

2 实验与分析

2.1 实验设置

实验在配置为intel四核i5的台式电脑上进行,采用pytorch机器学习库实现,GPU为GTX 1060。应用随机裁剪和随机翻转以实现数据增广。

采用从头训练模型,所有网络层的初始学习率均为0.01。对于输入图像帧,保留高宽比并将图像大小调整为256×128。使用随机梯度下降优化器对主网络进行300代训练,并对从网络进行500代训练。在100代之后将学习率除以10。在所有实验中,τ=10,δ=10-1,λ=10-4,Q=8,Q′=2。

在评估时不考虑查询图像与图库图像为同一个相机捕捉图像的情况。不同数据集之间虽然设定不同,但根据以往行人重识别研究,使用累积匹配特征(CMC,即top-k击中概率)和平均精度均值(mAP)作为性能指标,评估所提方法的性能[15]。

2.2 数据集

本文使用中使用了两个Re-ID研究常用的数据集,具体介绍如下。

(1)MARS数据集[16],包含从6个不同相机捕捉的1260个行人的19680个视频片段,每个轨迹片段平均为59帧。将625个行人标识用于训练集,将626个行人标识用于图库,并将622个行人标识用于查询。MAR是自动注释数据集,因此误差会造成该数据集的性能结果相对稍低。

(2)Duke-Video数据集,[17]包含从8个相机捕捉的1404个行人的5534个轨迹片段,每个轨迹片段平均为167帧。该数据集的注释为手工标注。

对于两个数据集,在测试图像到视频Re-ID任务时,提取每个轨迹片段的第1帧作为查询图像。图4给出了两个数据集中的样例图像,每行图像为不同相机捕捉的同一个行人的两个序列的图像帧。

图4 数据集样例图像

2.3 主从网络分析

本节将分析在行人重识别任务中,使用主从网络实现的性能增益。表2为主从网络的增益分析。从中可发现,MobileNet-V2-IN-BN比原网络实现了较大的性能提升,说明IN和BN模块相结合,显著提升了跨域准确度,增强模型对不同风格和不同内容的鲁棒性,有效移除不同领域上的统计信息差异,改善行人重识别任务的性能。此外,所提主从网络所有设定下均取得了最好性能,特别是在图像到视频设定下,mAP度量平均获得了3.83%的增益。这是因为所提方案通过主网络的视图迁移,将相同目标的不同视图集成在一起,得到更有价值的特征知识并迁移至从网络,由此提高对语义特征的捕捉能力,从而指导从网络从单张图像中恢复场景多样性,显著增强了在少量查询图像可用情况下的重识别性能。而在视频到视频设定中,由于在知识传递损失函数中结合了正则化项,解决了遗忘问题,使得所提主从网络也能够很好地处理长序列输入。因此,主从网络在仅少数查询图像可用的情况下能够显著提升原网络的性能,这与从网络的优化目标是一致的。

表2 主从网络性能比较

2.4 与其他方法比较

2.4.1图像到视频的设定

表3和表4分别给出了针对图像到视频的Re-ID,所提方法与当前其他先进方法在MARS和Duke-Video数据集上的比较结果。从结果中可以发现,基于深度学习的方法性能显著优于使用手工特征的传统方法。[9]所提方法取得了最好性能,这证明了基于特征距离的主从网络能够从同一个目标的不同视图中提取出更有价值的信息,增强了对查询和图库中图像帧的语义解析能力。此外,所提方法优于同样采用主从网络的文献方法。[12]这是因为当查询图像数量很少时,文献[12]基于时间域的知识传播存在一定的局限性。而所提方法不依赖于内部表征匹配,而是仅依赖于内部表征之间的距离,因此所提方法更适用于跨域知识传递。并且在知识迁移过程中,利用多个视点增强了视觉多样性。

表3 MARS数据集的比较结果

表4 Duke-Video数据集的比较结果

2.4.2视频到视频的设定

表4给出了在MARS数据集上,所提方法与其他方法的视频到视频设定下的行人Re-ID的性能比较。与相比较的方法不同,所提方法并非针对查询为视频的情况而设计。但本文方法依然取得了稍优于其他方法的性能,这证明了使用的Mobile-V2-IN-BN骨干网络能够准确捕捉查询图像帧中的关键特征,且在知识迁移的过程中不但没有造成过多的信息丢失,且通过训练从网络从少量图像中识别出场景多样性信息,提高了整体网络的性能。

表5 视频到视频设定下的比较

2.5 可视化分析

为进一步评估主网络和从网络之间的差异,本文利用GradCam展示在预测身份标识时影响最大的输入区域[18]。图5(a)和图5(b)分别给出了在Duke-video和MARS数据集上的示例图像,图中红色区域表示网络重点关注区域。从中可发现,主网络明显受到了不同背景与姿态的影响。相比之下,从网络通过特征学习和优化,将注意力尽可能集中在目标对象本身。分析结果证明所提主从学习方案能够有效提升图像到视频Re-ID的匹配性能。

图5 注意力的可视化结果

所提方法行人重识别的部分结果如图6所示,其中,第1列作为查询图像(无边框),后几列图像为查询后的图像。草绿色边框为正确检索结果,黄色边框为错误检测结果,由图6可以看出,所提方法可以应对不同姿态变化和遮挡,这说明所提方法可以有效进行行人重识别。

图6 部分人体重识别的结果展示

3 结论

提出了一种利用主从网络提高特征学习的效果,通过视频域到图像域的知识传递,使得最终主从网络能够利用少量图像推导出多样性的特征。此外,本文通过实例归一化和批归一化模块对MobileNet-V2进行改进,改善了图像到视频的行人重识别准确度和效率。实验结果表明,所提方法能够将注意力集中在目标最关键的识别特征上,显著提高行人重识别的性能。

猜你喜欢
主从视图行人
毒舌出没,行人避让
路不为寻找者而设
FANUC系统PROFIBUS主从功能应用
5.3 视图与投影
视图
我是行人
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
基于主从控制的微电网平滑切换控制策略研究
基于飞行试验数据的仿真模型主从一体化检验