深度学习的多目标跟踪研究进展

2024-02-29 09:24张红艳黄宏博何嘉玉

机械设计与制造 2024年2期

张红艳，黄宏博，2，何嘉玉

（1.北京信息科技大学计算机学院，北京 100101；2.北京信息科技大学计算智能研究所，北京 100192）

1 引言

多目标跟踪是对于给定的视频序列，找到每一帧图像中的运动目标，在连续视频帧中对同一个目标分配相同的身份标识号（ID），从而形成不同物体各自的运动轨迹。这些物体可以是任意的，如行人、车辆、运动员、动物以及足球等无生命物体。多目标跟踪在智能监控［1］、人机交互、虚拟现实、自动驾驶汽车［2］以及人群行为分析等领域都有许多实际应用价值。但是多目标跟踪也面临着一系列挑战，主要有：（1）目标种类繁多且复杂多变；（2）新目标的产生和旧目标的消失；（3）目标的数量未知；（4）遮挡以及目标之间的相互遮挡；（5）跟踪的物体消失一段时间后重新出现；（6）不同的目标拥有相似的外观；（7）背景干扰；（8）物体形变；（9）光照变化；（10）不同帧中同一目标身份切换次数过高，等等。解决这些问题对多目标跟踪的发展以及视频结构化和视频语义理解有着重要的意义。

在大数据时代背景下，随着计算机算力的提高和深度学习的发展，基于深度学习的图像处理方法变得越来越流行。并且随着更深的网络结构和更大量的数据应用，使用深度学习的多目标跟踪器性能也变得更好。基于深度学习的多目标跟踪算法主要采用两个步骤：目标检测和数据关联，即首先通过目标检测在视频的每个帧中检测感兴趣的对象，然后通过数据关联在不同帧中在检测到的对象之间建立对应关系以获得最终的运动轨迹。目标检测可以根据目标跟踪的速度和精度等性能要求选用适当的检测器来实现。数据关联的实现过程比较复杂，包括很多组件，其中有：（1）特征提取；（2）亲和度/匹配成本计算；（3）标识号匹配。针对深度学习在跟踪框架中的应用以及深度网络结构的不同，将多目标跟踪分为四类，并在此基础上对未来的发展趋势与前景进行深入探讨。

2 使用深度学习的多目标跟踪方法

2.1 基于深度特征的多目标跟踪方法

深度神经网络具有强大的学习能力，具体体现在特征提取［3］方面，其提取的深度特征具有更丰富、更抽象的语义信息。这些特征可以应用在图像分类和目标检测等计算机视觉子方向，并极大促进了这些领域的发展。使用深度特征代替传统的手工特征可以有效的提高多目标跟踪的性能。

文献［4］使用深度学习的方法提出了DeepSORT。该算法使用自定义残差网络在行人重识别数据集上进行训练，提取深度外观特征并映射到一个超球面。接着使用这些特征来计算检测目标与跟踪目标之间的最小余弦距离。在关联阶段，利用卡尔曼滤波得到的跟踪预测框与当前帧的检测框之间的马氏距离和余弦距离的线性加权作为关联度量并计算成本矩阵，随后使用级联匹配将跟踪预测框和检测框进行配对。这种简洁的跟踪方法既融合了运动信息又考虑了外观信息，可以在保持实时速度的同时获得较高的多目标跟踪准确度（MOTA），并且可以有效减少遮挡问题带来的影响。

文献［5］认为DeepSORT 把目标检测与重识别特征提取作为两个独立任务（两步法）进行，不仅没有特征共享而且时间利用率低。所以他们提出了一种新的跟踪基准（FairMOT）—把目标检测与重识别特征提取两个任务联合起来，称为一步法。输入的图像帧首先经过多尺度融合网络提取特征，解决目标尺度不同的问题，然后输出高分辨率特征图。接着把特征图送人目标检测重识别网络两个并行分支。后续关联阶段与DeepSORT采用的方法一致。实验证明，最终结果达到了最好的跟踪性能，而且相对于两步法速度更快。

该类方法利用深度特征进行跟踪，可以有效地减少遮挡带来的身份切换次数，并且在数据关联阶段使用卡尔曼滤波加匈牙利算法结合的方式，有效地提高了跟踪效率。缺点是仅在外观方面使用深度特征并不能完全代表目标，影响跟踪精度。

2.2 基于端到端的数据关联的多目标跟踪方法

深度学习不仅可以应用于特征提取，还可用于数据关联的其他部分。多目标跟踪框架中存在很多相互影响的模块，包括轨迹历史信息与当前检测之间的匹配、更新跟踪目标的状态以及管理目标轨迹的开始与结束等关键子模块，如何在一个整体框架中实现这些子模块并实现好的跟踪效果。近年来，不少研究人员通过简化跟踪过程，提出了以端到端数据关联的方式来实现上述目标。

在在线多目标跟踪框架中，可以使用由预测和观测值更新组成的贝叶斯滤波器估计被跟踪对象的状态。文献［6］将循环神经网络扩展为对这些过程进行建模，模拟贝叶斯滤波算法。该算法主要由三部分组成，分别是运动预测、匹配以及管理轨迹的起止，并且使用循环神经网络完成全部过程。尽管跟踪结果有提高，但实际多目标跟踪评估数据集中的跟踪结果并没有达到最高精度，原因有如下两点：（1）此方法仅考虑运动特征；（2）启动和终止轨迹没有考虑对目标关联有重要作用的上下文特征。

为了解决这些问题，文献［7］设计了一个分层的深度网络结构，该结构包含三个子长短期记忆网络，分别用来预测长期运动特征、提取外观特征和上下文特征。然后这些特征被串联起来，并送入到最高级长短期记忆网络，用来计算检测结果与已有轨迹之间的亲和度矩阵。为了学习这种分层结构，三个子网络首先经过预训练，然后从顶部的长短期记忆网络进行微调。因此，该方法实现了整个网络结构端到端的训练学习。实验结果表明，同时考虑运动和外观特征比仅使用运动特征更强大，并且还可以实现最新的人员重识别任务性能。

在全局优化的多目标跟踪中，跟踪被视为检测集的最佳分区，可以使用概率图、网络流等在整个检测范围内进行全局推理使最终的关联代价总和最小。文献［8］提出了一个基于信息传递网络的多目标跟踪器，利用问题的自然图结构来同时执行特征学习和结果预测。其具体跟踪流程为：首先是图的构建，节点对应视频的检测，边对应检测之间的连接；其次是特征编码包括外观特征与几何特征；然后是神经信息传递，节点与邻边分享外观信息，边与伴随节点分享特征信息；最后对图中的每条边引入了一个二元变量，判断该边是否被激活。实验证明，离线图在全局范围内进行跟踪，相对于在线跟踪，可以得到更准确的结果。

端到端的数据关联减轻手工设计成本，无需人工调参，灵活性好，并且在在线跟踪中，相对于卷积神经网络仅能提供空间信息，使用循环神经网络还可以处理时序信息更适用于多目标跟踪。在离线跟踪中，使用端到端的全局推理可以得到更准确的跟踪结果。但该类方法对硬件要求高，运行速度低。

2.3 基于单目标跟踪器扩展的多目标跟踪方法

上述多目标跟踪方法主要采用基于检测跟踪的策略，并通过使用数据关联算法进行跨帧链接检测来处理任务。但是，这些方法严重依赖于检测结果的质量。如果检测丢失或不准确，则容易丢失目标对象。随着单目标跟踪器的不断完善，研究人员提出了一种基于单目标跟踪器扩展的多目标跟踪流程，可以缓解多目标跟踪中由于遮挡、检测器性能不好导致的目标丢失等情况，增强跟踪鲁棒性。

文献［9］提出了一个基于单目标跟踪的在线多目标跟踪框架（STAM），如图1所示。该框架使用卷积神经网路学习强大的辨别性外观模型，利用单个对象跟踪器的优点来调整外观模型并在下一帧中搜索目标，每个目标分配一个单目标跟踪器。但是直接将单目标跟踪应用于多目标跟踪会因为遮挡导致漂移，针对这个问题，他们引入了时空注意力模型机制。时间注意力机制使用加权损失函数来更新模型参数，使得被遮挡越严重的样本对损失函数的影响越小。空间注意力机制对样本的空间特征进行加权，更加关注未被遮挡目标区域的特征，使得分类器的输出结果更加准确。除了目标之间的相互遮挡会造成跟踪漂移，还有当出现和目标相似的干扰时也会引起漂移，出现这种现象的原因主要是训练样本的数据不平衡导致单目标跟踪器学不到可区分性特征。

图1 STAM算法结构Fig.1 Structure of STAM Algorithm

为了减轻数据不平衡，文献［10］基于最新的单目标跟踪器（ECO）引入一种新的成本敏感损失函数使处于目标附近的难样本的惩罚权重变大。除此之外，还加入了数据关联部分来协助单目标跟踪器。首先应用单目标跟踪器来跟踪每个目标，直到跟踪结果变得不可靠（例如，跟踪得分低或跟踪结果与检测结果不一致）时，目标被视为丢失。接着挂起跟踪器并执行数据关联来计算轨迹与检测之间的匹配概率。一旦丢失的目标通过数据关联连接到检测，将更新状态并恢复跟踪过程。虽然该跟踪器取得了不错的性能，但是仍存在一些问题：首先，从两个单独的模型中提取用于单目标跟踪器和亲和力度量的功能，这会增加较多的计算开销；其次，由于在关联性计算中没有使用单目标跟踪器功能，因此他们必须训练额外的关联网络对此进行补救，这进一步增加了他们的内存需求；最后，单目标跟踪器和亲和力模型的独立特征提取以及复杂的亲和力网络设计，使训练程序变得复杂。文献［11］对此进行了改进，提出了一种基于多任务学习的在线多目标跟踪模型（UMA），该模型将基于单目标跟踪的运动模型和亲和力网络端到端地集成到一个统一的框架中。利用亲和力模型可以帮助单目标跟踪器学习更多的区分特征以更好地处理遮挡，从而简化了训练和测试过程，有效地提高了计算效率。

该类方法对于检测缺乏的问题有一定的鲁棒性，可以通过区域搜索得到暂时的目标定位信息。如果单目标跟踪器自身的定位能力强，那就相当于做了额外的检测，所以其跟踪性能不错。缺点是该类方法是针对每个目标进行依次跟踪，跟踪效率太低。

2.4 联合在线检测与跟踪的多目标跟踪方法

不论是基于检测的跟踪，还是基于单目标跟踪器的框架，都是把检测或单目标跟踪与数据关联分开进行，要么重点考虑选择性能更好的检测器，要么重点研究跟踪部分，并没有考虑两者之间的联系。使用联合检测跟踪框架，一方面好的检测可以提高跟踪器的性能，另一方面，跟踪结果可以在一定程度上弥补目标检测器的漏检、错检等问题。

文献［12］训练了具有ResNet-101和特征金字塔网络的目标检测器（Faster R-CNN），将目标检测器转换为跟踪器（Tracktor++）并利用上一帧中的目标边界框回归目标在当前帧中的位置，当出现遮挡或分类分数低于阈值时认为轨迹终止，否则继续。新目标的产生是根据检测结果与已有轨迹的交并比（小于阈值）来创建，算法思想，如图2所示。除此之外，为了减少帧间身份切换次数，他们还对跟踪器进行了拓展，一方面是运动模型部分，应用相机运动补偿（CMC）和恒定速度假设（CVC）分别来解决大幅度的相机运动和视频的低帧率问题；另一方面利用外观模型，针对重新出现的目标使用孪生网络进行重识别。实验表明，在Faster RCNN、DPM和SDP三种不同检测器的输入下，跟踪性能差距不大，所以该算法对于平衡检测的输入效果提升很大。

图2 Tracktor++算法思想Fig.2 The Algorithm Idea of Tracktor++

在此跟踪框架基础上，文献［13］通过将Faster R-CNN 换成CenterNet［14］实现跟踪，因此跟踪的边界框也就变成了跟踪边界框的中心点。基于边界框的检测器会列举出潜在目标的所有位置，并对每个目标进行分类以及后处理。基于中心点（CenterNet）的方法与Tracktor++相比，是端到端的，更简单快速准确。他们训练检测器以输出从当前目标中心点到前一帧中心点的偏移矢量，仅基于此预测偏移量与前一帧中检测到的中心点之间的距离进行的贪心匹配就足以实现目标对象关联。为了结构简单，当一个目标离开图像或被遮挡并重新出现时，将为其分配新的标识，即不考虑重识别部分。基于轻量级架构，此跟踪器可以实时运行并且跟踪性能比较好。

该类方法把检测和跟踪整合到统一框架，可以利用检测与跟踪相辅相成，实现更好的跟踪结果。但是该类方法并不能很好的应对遮挡带来的问题，其身份切换次数比较高、漂移问题严重。

3 算法性能比对

公开数据集和评价指标对于推动计算机视觉的发展非常重要，同样对于推动多目标跟踪的发展也具有十分重要的意义。本节主要介绍了多目标跟踪领域的常见数据集和评价指标，并对上文提到的方法进行性能比对。

3.1 数据集

（1）多目标跟踪挑战（MOT Challenge）是最常用的多目标跟踪基准，它为行人跟踪提供了目前公开的一些最大的数据集。对于每个数据集，提供真实标注信息并划分训练集和测试集。多目标跟踪挑战为大部分数据集提供检测，这样研究者可以只专注于提升跟踪性能，并且为研究者提供测试平台。

MOT15［15］：全称为2D MOT 2015，它包含22个视频，其中11个用于训练，11个用于测试。收集在固定或移动摄像机拍摄、不同的环境和照明条件等情况下的各类视频。它总共包含11283个不同分辨率的帧，1221个不同的标识和101345个检测框。

MOT16：具有更大的行人密度，视频也更具有挑战性。数据集中总共包含14个视频，其中7个用于训练，7个用于测试。这次数据集包含11235帧，1342个标识，总共292733个检测框。

MOT17［16］：与MOT16 具有相同的视频，但具有更准确的标记，并且每个视频有三组检测：一组来自Faster R-CNN，一组来自DPM，一组来自SDP。使用三个检测器提供的结果更加准确，也是现在主要使用的数据集。

MOT20［17］：具有极大的行人密度，包含8个视频（4个用于训练，4个用于测试），该数据集包含13410帧、6869个轨迹（标识）和2259143个检测框，比以前的数据集多得多。

多目标跟踪与分割（MOTS）［18］：该数据集将多目标跟踪任务扩展到实例分割跟踪，使用半自动标注程序在两个现有的跟踪数据集（MOT Challenge 和KITTI）上创建了密集的像素级的标注。新标注包含了10870个视频帧、977个不同对象（汽车和行人）以及65，213个像素掩码。

跟踪任何目标（TAO）［19］：多目标跟踪领域的类别往往来自自动驾驶和视频监控中特定的几种对象（车辆、行人、动物等），从而忽略了现实世界的大多数物体。于是为了改变多目标跟踪的现状，TAO数据集可以跟踪任何对象。该数据集包含2907个不同环境的高清视频。每段视频平均长度半分钟，包含833个对象类别。

（2）KITTI数据集

多目标跟踪挑战数据集重点关注行人跟踪，KITTI数据集［20］关注于人和车辆的跟踪。该数据集由21个训练序列和29个测试序列组成，总共约19000帧（32分钟），于2012年发布。它们由安装在行驶汽车上的摄像机收集，包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡。

（3）nuScenes数据集

nuScenes［21］数据集是于2019 年发布的大型自动驾驶数据集，有1000多个场景，其中包含140万幅图像、40万次激光雷达扫描（判断物体之间距离）和110万个三维边界框。该数据集使用了6个摄像头、1个激光雷达、5个毫米波雷达、GPS及惯导系统在内的多个传感器进行获取，包括对于自动驾驶系统有挑战性的复杂道路、天气条件等。

（4）BLVD数据集

BLVD 数据集［22］由西安交通大学夸父号无人车采集。采集车上装载多种传感器用于周围感知，包括一个三维激光雷达、一个全球定位系统（GPS）及惯性导航系统、两个高分辨率多视点相机。该数据集定义了三种参与者，包括车辆、行人和骑行者，其中骑行者包括骑自行车的人和摩托车的人。BLVD一共标注654个包含12 万帧的序列。根据标注场景中交通参与者的密集程度（低和高）和光照条件（白天和晚上），BLVD包含四种场景。

3.2 评价指标

为了评估MOT算法的性能，主要使用两组评价指标：VACE指标［23］和CLEAR MOT 指标［24］。前者从不同的方面描述单个指标，包括虚警（FP）、漏警（FN）、大部分成功跟踪的目标数（MT）、大部分丢失的目标数（ML）、身份切换数（IDS）和轨迹碎片数（Frag）；后者旨在衡量所有预测轨迹的整体性能，主要包括多目标跟踪准确度（MOTA）和多目标跟踪精度（MOTP）。在上述所有的评价指标中MOTA考虑了各种可能的跟踪错误，所以使用其作为重要的评价指标。它的定义如下：

式中：GT—真实标记框的数量。

3.3 实验对比

鉴于不同的跟踪器采用不同的数据集进行评估，我们把上文提到的算法分别在MOT15 和MOT17 挑战数据集上进行性能比较，如表1、表2所示。其中，考虑了额外的指标IDF1［25］，以更好地表示跟踪的准确性。↑表示数值越大性能越好，↓表示数值越小性能越好。

表1 在MOT15数据集上的实验结果Tab.1 Experimental Results on the MOT15 Dataset

表2 在MOT17数据集上的实验结果Tab.2 Experimental Results on the MOT17 Dataset

从实验结果可以看出，基于深度特征的跟踪方法—FairMOT取得了最好的MOTA结果，但是该类的其他方法的效果并不好，说明FairMOT算法使用的无锚框的检测算法（CenterNet）性能更好，更适用于多目标跟踪。这点从同样使用该检测算法的Cen‐terTrack的实验结果就可以看出。与此同时，FairMOT的IDSW值并不小，说明一步法相对于两步法还是存在很大的不足。但从大类上看，联合在线检测跟踪的算法总体性能比较好，普遍优于其他算法，说明检测器的性能对跟踪结果影响深远，也进一步说明了计算机视觉领域各个任务之间是相互影响的。端到端数据关联的算法中，基于全局优化的NeuralSolver 表现出色，其IDSW 值很小，说明利用整体信息的方式与在线跟踪相比，可以获取更多特征信息。基于单目标跟踪器的STAM 在Frag 和IDSW也取得较小的值，说明引入的时空注意力机制有效的缓解遮挡带来的影响。

4 研究展望

基于对以上四类多目标跟踪算法的分析比对，提出以后的研究展望。

4.1 数据集的完善

目前大多数数据集是基于交通环境中行人和车辆的跟踪研究，对于其他类别的跟踪研究少之又少。改变多目标跟踪现状，提出包含更多类别的多目标跟踪数据集至关重要。

除了增加类别外，现有的跟踪器远没有足够的标记数据集来训练满意的模型以在所有条件下进行跟踪，所以如何对数据集进行大量准确丰富的标记来辅助跟踪器进行跟踪是个巨大挑战。

综上，创建标注全面、类别丰富的多目标跟踪数据集是该领域的一个重点研究方向。

4.2 目标检测算法性能的提升

目标检测作为多目标跟踪组成部分的第一环节，其性能对跟踪结果有巨大影响。虽然目标检测领域已经取得巨大成功（Cen‐terNet等），但是针对于多目标跟踪领域的检测还需要进一步发展。漏警影响着MOTA的得分，使用更高质量的检测器仍然是减少漏警的最有效方法，也是多目标跟踪需要进一步探索的方向。

4.3 深度学习的应用

利用深度神经网路提取的深度特征代替传统手工特征来进行跟踪，对跟踪性能有很大提升。同样，把深度学习应用到跟踪的其他部分，像匹配矩阵的计算、注意力机制的加入等，也推进了多目标跟踪领域的发展。但是由于深度学习的计算量过大，一方面会导致计算速度慢并使跟踪达不到实时速度，另一方面需要计算性能更好的设备。所以继续推进深度学习在多目标跟踪领域的发展并提高计算速度也是未来需要深入研究的重点。

5 结论

多目标跟踪对于智能监控、人机交互、虚拟现实、自动驾驶汽车以及人群行为分析具有巨大的实用价值。详细分析了深度学习的多目标跟踪的研究进展，并根据不同的跟踪框架和网络结构，将其分为基于深度特征、基于端到端数据关联、基于单目标跟踪器扩展和联合检测跟踪的四类方法，综合分析其跟踪原理、性能特点以及优缺点。预测多目标跟踪的发展趋势和研究方向，对其进一步研究具有建设性意义。随着深度学习的深入发展以及硬件系统计算性能的提升，多目标跟踪的研究和应用将会呈现更美好的前景。