运算资源受限环境下的目标跟踪算法综述

2021-11-12 14:52武哲纬周世杰刘启和

计算机工程与应用 2021年21期

武哲纬，周世杰，刘启和

电子科技大学信息与软件工程学院，成都610000

视觉目标跟踪是一个开放的、有吸引力的研究领域，其现实需求大且应用范围广泛，包括自动驾驶汽车[1-2]、自动机器人[3-4]、无人机跟踪[5]等诸多方面。在复杂的现实场景中，目标跟踪场景的不适定性使得该问题更具有挑战性，如目标（例如行人、车辆、建筑等多种目标）的不规则形变、运动方式（例如高速运动、瞬移等情况）的变化以及环境条件的变化（例如照明变化、背景干扰等场景）增加了目标跟踪算法难度。

目标跟踪方法的核心思想是根据跟踪对象的特征在时空上完成跟踪对象的匹配和位置预测。根据特征提取技术手段不同，可将目标跟踪算法分为两类：基于传统手工特征的目标跟踪方法与基于深度卷积的自动特征提取目标跟踪方法。

基于传统手工特征的目标跟踪方法根据其工作方式可大致划分为核方法[6-7]、光流法[8-9]与判别相关滤波方法[10-12]，主要以CamShift算法[13]、MOSSE算法[10]、SRDCF算法[14]与CFLB算法[15]为代表。这些算法主要采用包括SIFT特征[16]、SURF特征[17]、HoG特征[18]、Color Name特征[19]等通过仿照人类的视觉特点来提取图像中具有区分能力的手工特征。

传统的目标跟踪方法尽管能够完成目标的视觉跟踪任务，但是仍存在跟踪精度相对较低，且存在边界效应（Boundary Effect）的不足。

深度学习理论被提出以来，对计算机视觉任务起到了巨大的推动作用，基于深度学习的目标跟踪算法越来越受到关注。根据其采用的主要网络结构不同，基于深度学习的目标跟踪方法可划分为基于孪生网络结构的跟踪方法[20-22]、基于GAN网络结构的跟踪方法[23]、基于自定义网络结构的跟踪方法[24-26]与基于卷积-滤波结构的跟踪方法[27-29]，主要以SiamFC算法[20]、VITAL算法[23]、MDNet算法[25]与ECO算法[30]为代表。

相比于传统方法，深度神经网络在跟踪精度方面有显著提高，但庞大的网络架构需要占用更多的计算资源。如在边缘设备（例如机器人、无人机等）中，其电力供应有限、内存与计算性能相对低，导致基于深度学习的目标跟踪算法电力消耗较大且无法实时跟踪目标，进而限制了这类算法的应用。

目前，现存的基于深度神经网络的目标跟踪方法的综述中缺少针对其在运算资源受限环境下的设计方式与表现的研究。因此，本次工作的主要动机是对运算资源受限环境下的目标跟踪方法做出调研，分析现有方法存在的问题并总结其在跟踪任务流程中的设计策略。

本文的主要贡献如下：

（1）本次工作以边缘设备运算资源受限的需求作为出发点，以基于深度学习的目标跟踪方法为主，梳理了现有目标跟踪方法在跟踪任务不同环节中的设计策略，并系统性阐述各类代表性方法的原理、优点与不足。以便于研究者根据需求设计符合要求的跟踪模型。

（2）梳理了已有的单目标跟踪数据集，分析了其包含样本的尺寸、数量以及样本的疑难场景分布。供研究者们根据实际的场景与设备采用所需的数据集。此外，还系统性总结阐述了目标跟踪任务的评价方法与评价指标。

（3）总结了近年来目标跟踪方法在提升跟踪效果上的方法思路，主要可分为轻量化与紧凑的骨干网络架构、基于预定义锚框的RPN模块与相关滤波与卷积特征的融合。

1 目标跟踪方法

目标跟踪任务的目标根据输入的帧序列与序列首帧中的目标位置来判断后续帧中的目标位置。

目标跟踪算法根据流程，可以划分为如图1的架构，分为特征提取、特征匹配、目标位置预测的三个部分。

图1 目标跟踪模型流程图Fig.1 Flow diagram of object tracking model

在给定帧序列的初始帧中，指定一块区域作为跟踪目标，并将其作为后续跟踪的参考模板（该帧也可称为模板帧）；后续帧则为搜索图像，每一次搜索操作都是在后续搜索图像中进行搜索[20]。

特征提取模块由基础的卷积神经网络组成，该部分旨在降低模板帧和搜索图像的空间维度，并获取二者的高层次特征表示。

特征匹配模块旨在根据前一阶段的输出，以特定的搜索策略在搜索图像中寻找目标的位置信息；目标位置预测模块根据特征匹配的结果，细化输出目标的位置信息。

1.1 传统目标跟踪方法

传统的目标跟踪方法主要可以分为光流法、核跟踪方法与相关滤波方法。以下开始依次论述。

1.1.1 光流法

光流（Optical Flow）是空间运动物体在观察成像平面上的像素运动的瞬时速度[31]。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。光流法的应用基于如下三个基本假设：

（1）亮度恒定：图像中目标的像素强度在连续帧之间不会发生变化。

（2）时间规律：相邻帧之间的时间足够短，以至于在考虑运行变化时可以忽略它们之间的差异。

（3）空间一致性：相邻像素具有相似的运动。

在跟踪过程中目标由于外界环境或自身运动导致其自身的视觉外观产生变化，对于依赖目标外观的光流法而言，其应对变化的鲁棒性相对不足，且计算时需要遍历每一个像素点，计算效率相对低下，不能满足实时性要求。

1.1.2 核跟踪方法

核跟踪方法的中心思想是沿与模板相似度最大的矢量方向不断迭代候选目标框，并收敛于目标的真实位置。以MeanShift算法为例，该方法首先对目标外观特征进行建模以得到关于目标特征的概率密度函数（也称核函数），同样地，对搜索图像进行建模也可得到关于其特征表达的概率密度函数。通过梯度上升的方式迭代到相似度最高的位置，并将其作为跟踪结果。但核函数方法在目标受到遮挡、模糊以及尺度变化时的表现不佳，Camshift算法[13]加入了尺度自适应机制以缓解尺度变化对跟踪精度造成的影响。

但是由于核跟踪算法存在对目标变化的鲁棒性相对弱、对空间信息获取不够充分等不足，近年来对基于核的跟踪方法的研究相对较少。

1.1.3 相关滤波方法

深度学习理论被提出之后相关滤波方法也结合深度特征进行了深入的研究，故单纯的相关滤波方法被归类为传统方法，结合深度特征的相关滤波方法于1.2.4小节进行详细阐述。在此仅对主要的传统方法进行简要介绍。

相关滤波方法也可称为判别相关滤波（Discriminative Correlation Filter，DCF）方法，其理论发源于信号处理方面的研究。相关滤波方法的主要思想是通过最小化搜索图像实际与预期的均方误差来训练一个滤波模板，利用该模板与搜索图像采样做相关运算，因两相关信号的响应值大于两不相关信号，故可通过最大化输出响应得到待跟踪目标的具体位置。其目标函数可以写作[10]：

2014年，MOSSE算法[10]首次将相关滤波方法应用于目标跟踪领域，通过多个样本目标优化最小平方和误差训练更加鲁棒的滤波器，并且实现滤波模板的在线更新以适应目标变化。此外还提出了使用峰值旁瓣比（Peak to Sidelobe Ratio，PSR）进行跟踪置信度的评估。

CSK算法[32]在MOSSE算法的基础上，为求解滤波模板的目标函数添加了正则化项来防止过拟合；其次，通过循环移位操作快速生成训练正样本；同时通过引入快速傅里叶变换（Fast Fourier Transform，FFT）来简化计算，提高滤波模板的计算速度，以及引入核函数来进行预测。基于相关滤波的目标跟踪算法以CSK算法为代表，其改进算法在传统方法中占据主导地位。但是，CSK算法引入的循环移位操作和快速傅里叶变换同样也带来了边界效应，边界效应的存在让跟踪器只会过度关注于图像中间位置，而处在图像边缘的目标难以被发现。

为了解决边界效应所带来的问题，研究者也从引入惩罚权重与强化特征表示两方面展开了研究。SRDCF算法[14]与CFLB算法[15]采用加大搜索区域，同时对滤波模板进行约束来减少边界效应的影响。SRDCF算法加入空域正则化机制，惩罚边界区域的滤波器系数。惩罚权重满足负高斯分布，对于越接近边缘的区域赋予更高的惩罚权重。CFLB算法提出通过Mask矩阵的形式实现对背景信息的抑制。

在特征表示方面，也有研究者对CSK算法做出了改进。KCF算法[12]通过引入HoG特征来更好地描述目标形状信息并与ColorName形成互补。SAMF算法[33]引入了多尺度检测的方法，将滤波器在多尺度缩放的图像上进行检测，以同时检测目标中心与尺度的变化。DSST算法[11]将目标跟踪看成目标中心平移和目标尺度变化两个独立问题，首先通过训练判别滤波器检测目标中心平移，随后通过MOSSE方法训练另一个尺度相关滤波负责检测目标尺度变化。

传统跟踪方法仍存在以下两点不足：

（1）跟踪精度相对较低，其深层次原因是无法鲁棒地表达目标特征，外界环境或运动因素对目标特征的影响、背景对于目标特征表示的干扰都会导致跟踪失败的情况发生。

（2）判别相关滤波方法引入循环位移操作与快速傅里叶变换来循环生成训练样本与提高计算速度，但其也不可避免地引入了边界效应，这导致了对快速运动目标检测能力的降低。

1.2 基于深度学习的目标跟踪方法

随着深度学习理论的发展，深度神经网络凭借其泛化性与特征表达的鲁棒性走入了研究人员的视野。近年来的目标跟踪领域的研究主要都集中在深度学习方面，由此可见基于深度学习的目标跟踪方法具有重大潜力。

根据其采用的网络结构可以将其划分为孪生网络结构、GAN网络结构、自定义网络结构与卷积-滤波结构。表1以年代为顺序，列出了近年来具有代表性的基于深度学习的目标跟踪方法，并着重体现其在适用场景、运算量、参数量与跟踪速度等性能方面的表现。以下开始依次论述。

表1 （续）

表1 目标跟踪网络模型详细信息Table 1 Details of object tracking model

1.2.1 孪生网络结构

孪生神经网络（Siamese Neural Network），是基于两个人工神经网络建立的耦合架构。孪生神经网络以两个样本为输入，输出其嵌入高维度空间的表征，以比较两个样本的相似程度。狭义的孪生神经网络由两个结构相同，且权重共享的神经网络拼接而成。

2016年，SINT算法[34]与SiamFC算法首先将孪生网络结构应用于目标跟踪技术的研究，并取得了长足的进步。前述两方法奠定了基于孪生网络结构的目标跟踪方法的基本流程：

孪生网络的一个分支提取目标特征，另一个分支提取搜索图像的全局特征，最后通过互相关操作进行特征匹配生成目标位置的响应图。

随着基于孪生神经网络的目标跟踪理论的发展，研究者们主要从目标特征表示、特征匹配与位置预测两个方面对跟踪器的性能进行改进和提升，以下依次展开论述。

（1）目标特征表示

特征提取模块主要采用预训练的骨干网络（例如：AlexNet[35]、VGG[36]）ResNet[37]等），该部分主要承载着获取模板帧与搜索图像的特征的作用。

在基于孪生网络的跟踪方法中，特征提取部分方面的设计思路主要可划分为直接由骨干网络获取卷积特征、卷积特征与中间特征结合、卷积特征与其他信息融合与目标模板更新等思路。针对目标特征表示任务，各种网络结构之间的简要对比如表2所述。表中关于自定义网络结构与卷积-滤波结构部分的详细叙述见1.2.3小节与1.2.4小节。

表2 目标特征表示方法优缺点的比较Table 2 Comparison of advantages and disadvantages of target feature extraction

直接通过骨干网络获取特征的思路将原始目标图像或搜索图像输入骨干网络，通过卷积计算后得到的结果作为目标以及搜索图像的特征表示。使用此类方法的典型文献包括SiamFC算法、SINT算法、GOTURN算法[38]、DCFNet算法[39]、CREST算法[40]、EAST算法[41]、RASNet算法[42]、MemTrack算法[43]。该方法简单直接，但在目标的尺度变化、旋转等外观状态改变的情况下效果不佳。因为高层网络具有更大的感受野，故对语义层面的信息具有更强的表征能力。但缺点在于其输出的特征图的分辨率更低，故缺乏几何细节特征的表示。

为了获取骨干网络中间层所蕴含的对目标几何特征信息的表示，研究者们采用了抽取卷积层之间的中间特征的方法。将中间特征与最终特征共同作为目标与搜索图像特征的表示作为后续步骤的输入。使用此类方法的典型文献包括SiamRPN++算法[44]、SiamCAR算法[45]、SPM-Tracker算法[46]、ATOM算法[47]、C-RPN算法[48]、StructSiam算法[49]、DCFST算法[50]、PGNet算法[51]。相比于单纯获取最终特征图的方法，采用中间特征可以增加较小的计算开销的前提下获取不同尺度下的特征图，通过多尺度特征融合操作获取不同层次的目标特征表示。相比于直接获取特征方法而言，更加利用了低层网络的小感受野、强几何细节特征表达的优点。

除了关注视觉特征以外，由于跟踪任务的帧与帧之间并非完全独立的原因，故也不应忽略帧间以及通道间的信息。研究人员也在探索将帧间的时空信息、目标-背景的注意力机制与通道注意力机制等视觉以外的信息作为视觉特征的补充，以增强目标特征的表达。

例如，SA-Siam算法[52]采用语义分支与外观分支分别过滤背景干扰与泛化目标外观变化；SiamAttn算法[53]以Self-Attention模块与Cross-Attention模块分别增强上下文信息并融合补偿两个模块之间的特征表示。此外，GCT算法[54]引入图神经网络结合时空特征以应对目标的特征变化。MLT算法[55]与ROAM算法[56]分别将元学习的方式应用在目标外观特征的提取中以捕捉目标外观的动态变化。

更新目标模板也是重要的研究方向。此前的跟踪方法都是在视频首帧指定目标位置，此后目标特征则不再更新，但随着外界条件的变化或受目标自身运动的影响，目标的视觉特征也可能发生相应的变化。在此情况下根据第一帧的目标特征进行搜索将会导致不可避免的错误。SiamBM算法[57]使用线性融合的方式将初始帧与前序帧的预测结果融合；UpdateNet算法[58]采用专门的模板更新子网以自适应非线性的方式融合最新的目标特征；GradNet算法[59]旨在挖掘目标变化的梯度信息，以得到最优的目标特征表示。简单的线性融合模板方式的缺点是初始特征所占的比重会以指数级降低，且误差会以指数级增加；自适应非线性融合方式则可以自主学习目标变化，从而减小误差对模板特征的污染，但其在目标被遮挡时仍会引入误差因素；以梯度信息实现模板的更新在目标特征产生剧烈变化时，仍可以准确捕捉到特征位置。但是，模板更新策略由于需要在跟踪任务执行的过程中重复计算、融合模板特征，往往会对跟踪速度带来较大影响。

（2）特征匹配与位置预测

特征匹配模块通过特定的方式或策略，根据从特征提取模块获取的目标特征在搜索图像中找到目标的位置。该模块当前主流的设计策略有：区域建议网络、匹配操作改进与位置预测改进等思路。

区域建议网络（Regional Proposal Network，RPN）最早于目标检测任务的Faster R-CNN算法[60]被引入。RPN网络生成一系列预定义边框，每个边框位置代表可能存在目标的区域的预测。采用RPN方法的典型文献包括SiamRPN算法、C-RPN算法、SiamRPN++算法、SiamMask算法、DaSiamRPN算法[61]、SPLT算法[62]。RPN网络的引入可以大幅减少特征匹配阶段的计算开销，但是会引入额外的先验知识（例如目标的纵横比与锚框数量），额外先验知识所导致的缺陷就是对于先验知识没有涉及到的形状与形变的鲁棒性较差，并且锚框数量的多少也直接决定了跟踪性能。

为缓解由RPN网络所带来的局限性，研究人员又把思路放回到的Anchor-Free方法，例如SiamFC++算法[63]、OCEAN算法[64]与FCAF算法[65]，Anchor-Free方法摆脱RPN网络中预定义边框带来的先验知识，回归到以像素点为单位进行物体位置中心与边框位置预测的计算思路中。

在匹配操作改进方面，DaSiamRPN算法与SPLT算法采用了“先局部-后全局”的目标搜索策略。SiamRPN++算法、EAST算法与PGNet算法提出了新的互相关策略以减少匹配计算时的计算开销。CGACD算法[66]通过孪生网络对目标进行初步定位，再在目标ROI内进行角点检测以精细定位。同样地，SA-Siam算法、TADT算法、RASNet算法也注意到在跟踪不同的目标时，响应强烈的通道也不尽相同，故上述方法采用通道注意力机制，根据不同目标激活不同特征通道。

在位置预测方面，孪生网络的预测结果为由目标特征图与搜索图像特征图经过互相关操作产生的响应图而得到的分类置信度，或是根据全连接层通过回归计算得到的目标位置坐标。在后续的研究中，研究者们也在分类分支与回归分支之外，引入了新的分支来完成细化网络对最终目标位置的输出。SiamFC++算法加入了质量评估分支以评估该帧跟踪结果的质量，根据评估结果调整预测边框的具体位置。PrDiMP算法[67]通过对噪音与不确定性建模，并以概率回归的方式预测目标位置，达到较高的准确度。CLNet算法[68]引入CLN子网，通过结合正负样本的统计信息得到一个紧凑的目标特征表达，以重现正负样本的分布来指导预测。

也有研究者提出了新的预测思路——SiamMask算法在预测分支中加入一个Mask预测分支，在预测的同时也能完成像素级的实例分割任务。D3S算法[69-70]在SiamMask算法的基础上提出使用椭圆与最小二乘法细化目标边框的输出。

总体而言，匹配操作改进部分的研究旨在降低计算开销与提升匹配精度，降低开销主要体现在“先局部后全局”与“粗匹配-细匹配”的二阶段匹配策略；提升匹配精度表现在关注匹配时的通道注意力机制。位置预测方面的研究则关注于对现有跟踪结果的评估以指导下一次预测。

1.2.2 生成对抗网络结构

生成对抗网络（Generative Adversarial Network，GAN）至少由一生成器与一判别器组成。生成模型旨在拟合已有数据的数据分布以生成新的符合原分布的数据，判别器旨在判别数据的真伪性。生成器与判别器相互博弈的过程中，二者的水平不断提高以达到训练者的要求。

VITAL算法利用GAN网络生成一个Mask以增强目标的特征，同时训练一对目标变化鲁棒的判别器以判别目标与背景。SiamGAN算法[70]提出了一个基于GAN网络的路径预测器，以预测目标被遮挡后的运动路径。

基于GAN网络的大部分工作将GAN运用在扩充与增强数据集，以缓解数据集中某一特殊场景数据少或正负样本不平衡方面的问题（例如SINT++算法[71]）。GAN网络结构本身在跟踪领域应用相对较少，因为GAN网络模型庞大、训练难以收敛且计算开销大，在前向推理时难以达到实时性要求，故在运算资源受限环境下不推荐使用。

1.2.3 自定义网络结构

除上述孪生网络与生成对抗网络结构之外，也有研究者提出了符合自己设计理念的，为跟踪任务专门设计网络结构的跟踪网络。这部分的工作主要可划分为目标特征表示以及学习策略与模型更新两部分，以下依次展开论述。

（1）目标特征表示

通过融合卷积特征或时空信息，基于CNN结构的跟踪方法同样也在构造鲁棒的目标特征表示做出努力。各思路的简要比较如表2所示。

TCNN算法旨在捕捉目标特征的动态变化，构造了一个以CNN模块组成的树状结构，叶节点保存的目标最新的特征，根节点保存历史特征，再通过线性加权的方式组合目标最终特征。

FlowTrack算法[72]通过融合历史帧的光流与特征信息获取当前帧中的空间注意力，并通过空间注意力对不同特征通道进行加权得到通道层面的目标注意力。KYS算法[73]不仅只传播目标的特征信息，连同场景、相似物体等有助于判别目标位置的其他特征表示也一同被传播。并将其映射到当前帧，结合目标外观特征进行跟踪预测。

SANet算法[74]通过RNN对目标特征进行结构化建模，以提升模型的鉴别相似物体的能力，以跳跃连接的方式将RNN特征与卷积层中间特征进行融合。类似地，MemTrack算法、TSN算法[75]、ROLO算法[76]、Re3算法[77]、RFL算法[78]都使用了LSTM模块以结合时域与空域的信息来进行目标特征提取任务。FPL算法[79]在目标被遮挡时，通过建立背景运动模型并使用卷积-LSTM网络进行目标轨迹预测。

采用RNN或LSTM结构的模型都存在着模型参数多、训练时难以收敛、耗时长的缺点，并且由于其为时间序列模型，无法执行并行操作，故该类模型的跟踪效率为精度所付出的代价相对高昂，在运算资源受限的场景下需要慎重考虑。

（2）学习策略与模型更新

同样地，也有研究者们在模型的训练方式或学习方式上做出了研究，例如将元学习、强化学习、集成学习等方式融入进模型的训练过程，在有限的数据集上提升训练效率或优化训练效果。

DAT算法[80]以循环学习的方式计算Attention Map，并且将其作为训练阶段的正则项使模型学习到对外观变化具有鲁棒性的特征。STCT算法[81]与MDNet算法采用在线学习与离线训练相结合的方式训练模型，MDNet的共享层权重由跟踪训练集共同训练，专用层由每个视频序列单独训练，在跟踪过程中使用在线微调的方式更新专用层参数，由于对跟踪任务专门设计了共享层网络结构，并且对重难点样本进行挖掘，使得跟踪精度与同时期算法相比相对较高。MDNet的局限性在于在跟踪过程中在线对专用层权重进行微调，使得其跟踪速度远未达到实时跟踪的要求。RT-MDNet算法[82]通过ROI对齐的方式在识别速度方面对其进行了改进。MAML-Tracker算法[83]引入了元学习方法，让跟踪器学习一个好的初始化权重，在少量训练数据上经过少数更新即可收敛。ADNet算法[84]通过强化学习产生目标的动作序列，以控制目标BBox进行移动或尺度变换。模型更新方面UCT算法[85]通过引入峰值信噪比进行有效的模型在线更新，并且可以通过更换轻量化的骨干网络以达到更高的速度。BranchOut算法[86]通过集成学习的方式，并行学习多个卷积分支的信息，但在模型更新期间，通过多重伯努利分布随机筛选一部分分支进行模型更新，达到类似DropOut的效果以防止过拟合。

总体上看，学习策略与模型更新方面的研究主要在模型的训练阶段体现。离线的预训练模型旨在大规模数据集上提取到通用的目标特征表示，但也容易收到因训练数据不平衡与先验假设导致的识别问题，通过离线训练与在线训练相结合的方式，在获取通用特征表示的同时也完成对特定场景或目标的特征信息的学习。

1.2.4 卷积-滤波结构

卷积-滤波结构是深度特征与相关滤波方法的结合。相比于深度特征，手工设定特征计算速度快，特征的每一个维度具有可解释性的特征表示，但手工特征面对目标变化与形变无法保证提取效果的鲁棒性。基于CNN网络的深度特征提取网络通过构建网络层次，在大规模监督数据集上进行网络参数的训练，以端到端的形式提取输入图像的特征。卷积特征的表达效果鲁棒、泛化性强，但是也存在可解释性较差与前向推理速度慢的问题。卷积-滤波结构通过结合二者的优点，努力实现跟踪精度与速度的平衡。

该部分的工作可以归为目标特征表示、计算方式与优化策略两类，以下依次展开论述。

（1）目标特征表示

卷积-滤波结构的目标跟踪方法在目标特征表示方面的思路大体一致，可划分为手工特征与卷积特征的融合、中间特征与卷积特征的融合与空时特征与卷积特征的融合三部分。

手工特征与卷积特征融合方面，MCPF算法[87]首次采用多任务滤波方法进行多种特征（CN、HOG、CNN）特征的融合。MCCT算法[88]、TRACA算法[89]都设置了多个跟踪器或编/解码器，根据不同目标自主组合深度特征与手工特征。值得注意的是，MCCT算法设置了7个子跟踪专家，分别组合代表低、中、高层的深度特征与手工特征生成融合特征进行跟踪，并根据7个跟踪器的结果进行评价与结果选择，得到最后的结果。由于堆叠了多个跟踪专家，使得其跟踪速度相对缓慢，即使通过DCF结构设计以及样本共享策略以优化性能，MCCT的跟踪速度仍只有8 FPS，无法满足实时跟踪需求。ASRCF算法[90]在传统DCF的基础上增加了自适应空间正则项，通过深度特征估计目标定位，根据手工特征以估计尺度变化。

为了应对目标的尺度变化，C-COT算法通过整合多尺度的中间特征图以训练连续空间域上的卷积算子进行跟踪，HCFTstar算法[91]使用不同尺度下的特征图以捕捉目标位置表示，并且引入RPN网络进行跟踪失败后的重检测。SACF算法[92]以空间特征对齐的方式估计目标的变换，使预测的ROI区域具有正确的尺度与纵横比。

CREST算法通过空域与时域层面的残差学习比较当前帧与初始帧获得目标的特征变化信息。

如1.1.3小节所述，相关滤波方法的循环位移操作引入了边界效应，为了缓解边界效应的影响，LMCF算法[93]融合结构化SVM的判别力与相关滤波算法高速特性，并且通过多峰前向检测降低相似物体的干扰。DRT算法[94]与LSART算法[95]将目标区域等分为九宫格，通过赋予其不同的可靠性权重以降低跟踪模板内无用区域中存在的冗余信息。

手工特征与深度特征的融合在跟踪精度方面对比于仅采用手工特征的方法实现了超越；在跟踪速度方面，某些方法比仅采用深度特征的方法也有所提升。深度特征与手工特征的融合是值得关注的研究方向，当遭遇目标丢失时的再检测机制同样也能很好地提升跟踪方法的跟踪表现。

（2）计算方式与优化策略

此方面的工作主要集中在通过对损失函数、计算方式的优化，提高计算速度与跟踪精度。

计算速度提升方面，ECO算法通过因式分解卷积操作，减小冗余训练数据，与降低在线更新频率来提高跟踪速度。RPCF算法[96]将ROI池化策略引入到相关滤波的方法中，并通过对滤波器目标区域的系数进行限制以达到简化计算的目的。CFCF算法[97]针对基于跟踪网络的损失函数提出了高效的反向传播算法以降低模型更新与训练的时间。GFS-DCF算法[98]引入空域、时间、通道三方面正则项，以降低空间与通道维度的尺寸实现特征压缩，时间平滑正则项对帧间估计提出了约束，共同提高跟踪速度与精度。IBCCF算法[99]与MCPF算法都采用“粗匹配-细匹配”的二阶段匹配策略，减少在无效区域的计算，并提高可能存在目标区域的注意力。

跟踪精度的提高方面，deepSTRCF算法[100]与ARCF算法[101]引入正则化项捕捉目标特征的最新变化与压制相似物体的干扰。AutoTrack算法[102]在STRCF算法的基础之上，通过局部与全局的响应变化来自动更新时间与空间正则化，并且在更新过程中自动调整正则化项中的超参数以自适应环境与目标的变化。

相关滤波与卷积网络的融合思路是成功的，特征融合策略不仅发挥了每种特征在表征方面的优势，也能更好地为后续跟踪步骤做出铺垫；计算方式的研究在特征压缩、特征匹配上的改进也对性能与精度带来了提升。

1.2.5 小结

深度学习方法较大程度地提高了应对目标特征变化时的鲁棒性与泛化性，但也存在共通性的缺点：

（1）跟踪速度相对较低。随着网络模型的加深，算法的跟踪精度得到了较大提升，但在速度方面的表现却不尽人意。运算资源受限的设备在网络中往往扮演数据采集、初步分析的底层角色，故其对于跟踪速度的要求更高。

（2）数据需求量大。深度模型的训练依赖于大量的数据与超参数，现有的训练样本并不能完全重现应用场景中的样本分布。并且单纯依赖初始帧中的正样本，也导致了正样本匮乏的不足。样本的不足进一步导致了泛化能力与场景迁移能力的不足。

表3 详细描述了孪生网络结构、GAN网络结构、卷积网络结构与卷积-滤波结构的目标跟踪算法优缺点。

从表3可以看出，当前的研究工作基本围绕着跟踪速度与跟踪精度两个要点而展开。孪生网络结构灵活度高，不仅可以与不同的骨干网络（例如搭载VGG、ResNet、AlexNet等多种骨干网络）、相关层、RPN网络（例如SiamRPN算法与其改进方案）与评估分支（例如SiamFC++算法与CLNet算法）进行组合也可以与不同的搜索策略与学习方式进行互补。其次，孪生的网络结构能够以同样的表征方式提取目标与搜索图像的特征。通过对孪生网络结构的进一步改进，现有的孪生网络结构可以提供速度与精度上的统一。孪生网络的缺陷在于仅仅使用预训练的模型难以应对目标特征的改变，并且容易出现过拟合的问题，附加额外模块进行在线更新与微调是解决的方向。

表3 基于深度学习的目标跟踪技术简要对比Table 3 Comparison of DL-based object tracking methods

GAN网络结构能够相对有效地解决数据分布不均匀与正样本匮乏的问题。并且通过数据增强的方式进一步提升目标特征的鲁棒性表示。如前所述，GAN方法的缺陷在于训练困难且速度较低。

卷积网络结构的突出特点是结构简单。现有的基于深度学习的目标跟踪方法大多数采用的是为分类任务所开发的骨干网络，而跟踪任务中并不需要为目标具体划分类别，只需要完成“目标-背景”的二分类即可。故此方面，骨干网络存在较大的冗余。卷积网络发挥轻巧的特点，降低特征提取所耗费的计算开销，能得到更高的跟踪速度，并且通过引入其他的优化方式进一步提高跟踪精度。

卷积-滤波结构旨在发挥卷积特征的语义表征能力与DCF方法的速度优势，并且与手工特征相结合，故其在特征表示方面的速度表现要优于全卷积骨干网络。相比于单纯的深度模型，相关滤波算法有着更加扎实的理论支撑，所以在特征匹配与位置预测方面的改进工作的方向也更加明朗。

2 数据集与评价指标

跟踪模型的训练与改进都以数据集为基础，模型的质量需要通过评估指标以进行评估。在本章中，将介绍用于训练目标跟踪模型的数据集、评估方法以及评估指标。

本文调研了目标跟踪领域主要使用的数据集，并标注了其含有的视频序列数量、分辨率、疑难场景等信息，具体阐述如表4所示。

表4 目标跟踪数据集详细信息Table 4 Details of object tracking datasets

2.1 目标跟踪数据集

OTB2013[103]是于2013年提出的跟踪数据基准，其由51个手工标注的视频序列组成。2015年，作者将OTB2013数据集包含的视频序列数量扩展至100个，此为OTB2015[104]数据集，其分辨率均为640×480。

同样地，自2013年开始，VOT视觉跟踪挑战被提出，随之而来的是每年更新细化的VOT系列数据集。VOT2013[105]数据集包含16个图像序列，分辨率为320×240，VOT2014[106]与VOT2015[107]分别将图像序列扩充至25与60个。且自2018年，VOT挑选出持续时间相对长的图像序列组成了长时跟踪数据集，分别为VOT-LT2018与VOTLT-2019。2020年，VOT2020[108]又进一步划分为短时跟踪集VOT-ST2020与长时跟踪集VOT-LT2020，分别包含60与50个图像序列。

除了RGB图像，VOT数据集还提出了基于热成像的视觉跟踪数据集VOT-TIR系列数据集（包含VOTTIR2015[109]、VOT-RGBTIR2019与VOT-RGBTIR2020）与基于深度数据的视觉跟踪数据集VOT-RGBD系列数据集（VOT-RGBD2019与VOT-RGB2020）。

2014至2015年，ALOV300++[110]数据集与囊括128个图像序列的TColor-128[111]数据集被提出，ALOV300++数据集包含了315个图像序列，更倾向于检验目标跟踪算法在面对不同场景下的鲁棒性。

2016年，NUS-PRO[112]数据集被公布，与之一同公布的还有源自于它的子集的BUAA-PRO数据集，NUS-PRO数据集由365个图像序列组成，其目标类型主要为人体以及刚性物体。同年，由无人机视角捕获画面的UAV123[113]数据集被公布，其中囊括123个源自于无人机航拍画面的图像序列。并且也从中挑选出20个序列作为其另一专注于长时跟踪数据集的版本（UAV20L数据集）。

2017年，在高帧率环境下的NfS数据集[114]被提出，其囊括了100个帧率达到240 Hz的图像序列。同年，也是来自于无人机采集画面的高分辨率DTB70[115]数据集被提出，其包含70个分辨率达到1 280×720的图像序列。

2018年后，提出的数据集主要在长时跟踪与大尺度方向做出改进。OxUxA[116]数据集主要针对长时跟踪场景，提出了包含366个视频序列的数据集，其平均时长达到140 s。TLP数据集[117]包含了50个同时满足长时跟踪与高分辨率的图像序列，平均长度达到484 s。TrackingNet[118]数据集也由30 643个图像序列组成，作者将其划分为两个子集，其中训练集包含30 132个序列，测试集包含511个序列。

2019年发布的GOT-10k[119]数据集包含10 000个图像序列，大尺度目标跟踪数据集LaSOT[120]包含1 400个图像序列。

对于每一个图像序列而言，其符合的具体场景有所不同，例如光照、遮挡、形变等干扰因素。近年来，数据集的开发者们也会为每一个视频序列根据所处的环境打上特定的标签，以评估模型对特殊条件下的性能与表现。同样地，这些标签也是目标跟踪技术的难点和挑战，各种疑难场景的具体阐述如表5所示。

表5 疑难场景详细信息Table 5 Details of object challenge scenario

2.2 评价方式与评价指标

目标跟踪模型的量化评估需要一系列指标加以指示。将总结目标跟踪网络的鲁棒性评估方法与准确性评估指标。

2.2.1 鲁棒性评估方法

（1）一次评估方法（One-Pass Evaluation，OPE）

最常用的评价方法为OPE方法，该方法指根据真实标注的位置初始化测试视频序列的第一帧，然后根据结果计算跟踪精度与成功率（计算方法在2.2.2节中详细阐述）。

但是，OPE方法存在两个缺点，一是跟踪算法可能过度依赖于第一帧标定的初始位置，在视频帧序列不同中间位置开始跟踪可能会造成精度上的降低；二是大多数算法在遭遇跟踪失败（IoU为0）的情况下没有重新初始化的机制。针对上述两个问题，又提出了针对跟踪鲁棒性的评估方法。

（2）时间鲁棒性评估（Temporal Robustness Evaluation，TRE）

该评估方法表示在整个图像序列中，从时间序列上添加扰动，指定若干中间帧分别作为跟踪算法的初始帧进行模型初始化，直至图像序列结束，在此条件下根据结果计算跟踪精度与成功率。

（3）空间鲁棒性评估（Spatial Robustness Evaluation，SRE）

该评估方法旨在对空间角度为真实标注添加扰动，以检验跟踪方法是否对错误初始化具有足够的鲁棒性，通过对真实标注框进行分别8次位置偏移与4次尺寸缩放，位置偏移包括4次水平与垂直方向的偏移以及4次角方向的偏移，偏移量为目标尺寸的10%；尺寸缩放由目标尺寸的80%以10%的步长逐步扩展到120%，综合记录上述12次偏移操作情况下的跟踪精度与成功率取算术平均值，作为其在SRE体系下的评分。

（4）带恢复的OPE评估（One-Pass Evaluation with Restart，OPER）

在OPE方法的基础上，在跟踪模型遭遇跟踪失败的情况时，重新根据真实标注初始化跟踪模型，并在后续帧中继续展开跟踪。

（5）带恢复的SRE评估（Spatial Robustness Evaluation with Restart，OPER）

同理。

2.2.2 准确性评估方法

（1）成功率（SuccessRate）

该指标表示，在给定一阈值T的情况下，计算模型预测位置边框与目标真实位置边框之间的IoU。若高于阈值T，则该帧计为跟踪成功；否则为失败。以此计算所有测试集中的平均成功比例。对于包含N帧的测试序列，测试结果与真实结果分别用Prei与GTi表示，则成功率的计算方法可写作：

其中，ε(·)为阶跃函数，记作：

通过绘制Success Rate(T)关于自变量阈值T的曲线图，可以得到该模型的Success Plot。图2则为OTB2015数据集（亦可称为OTB100数据集）上，以OPE方法测试得到的各算法的Success Plot，以AUC指标作为各阈值下的评分。（2）精度（Precision）

图2 OTB2015数据集的Success Plot Fig.2 Success Plot on OTB2015 dataset

该指标表示，在给定一阈值T的情况下，计算模型预测位置与目标真实位置之间的中心位置误差（Center Location Error，CLE）。若二者欧氏距离高于阈值T，则该帧计为跟踪成功；否则为失败。但是该指标在同样IoU的情况下，在面对尺寸大小差距过大的目标时其CLE的差距十分明显。归一化精度在计算CLE时考虑目标尺寸因素，以归一化的方式缓解由目标尺寸对绝对欧式距离的影响，以此计算所有测试集中的平均成功比例，可写作：同样地，通过绘制精度关于自变量阈值T的曲线图，可以得到该模型的Precision Plot。

（3）曲线下面积（Area Under Curves）

该指标通过计算Success Plot或Precision Plot曲线与坐标轴所围成的面积，以评估目标算法在不同阈值下的综合表现。AUC的取值范围为[0，1]，数值越高，代表模型的跟踪能力越强。可以如下表示：

（4）期望平均覆盖面积（Expected Average Overlap）

该指标可以同时反映跟踪的精度与鲁棒性。无论跟踪是否成功，EAO通过计算帧序列中的平均IoU得到。在遭遇跟踪失败的情况时，其IoU为记为0。则其可表示为：

3 适配运算资源受限环境下的改进方法

3.1 轻量化与紧凑网络结构设计

随着研究的推进，深度神经网络的层数也在进一步加深，由AlexNet的7层发展到VGG的16~19层，再到GoogleLeNet的22层。但网络深度达到一定程度后，模型的精度会迅速下降，同时前向传播的计算消耗也会增大。结合表1的结果，在跟踪速度表现良好的算法（例如SiamFC算法、GradNet算法、RASNet算法、SiamRPN算法、SPM-Tracker算法、GOTURN算法、SiamFC++算法）中，绝大多数方法都采用了相对浅层的AlexNet作为骨干网络。采用VGG的方法（例如TCNN算法、VITAL算法、MDNet算法、SANet算法、TSN算法、DAT算法）的速度表现相对不够优秀。即使网络层数的加深可以提高特征提取的效果与增强模型识别的泛化性能，但由此带来的性能损耗相比增益而言，对于移动平台而言仍然是得不偿失。

紧凑结构设计方面，SiamRPN++算法与C-RPN算法采用了重复堆叠模块的结构设计思路；SiamGAN算法与VITAL算法采用了GAN网络模块以增强跟踪网络在特殊条件下的鲁棒性；TCNN算法采用了树状结构来组织CNN节点。上述工作加大了网络的复杂程度，提高了精度，但在实时性方面也付出了代价——TCNN算法在NVIDIA GTX Titan X的环境下仅能达到1.5 FPS；SiamGAN算法在2块NVIDIA GTX1080ti的环境下仅能达到29 FPS；VITAL算法在NVIDIA Tesla K40c运行环境下只能达到1 FPS的跟踪速度，在运算资源受限的环境下的表现会更加缓慢。相比之下，结构简单的方法（例如GOTURN算法、SiamRPN算法、SPM-Tracker算法）更能够发挥速度优势，达到在受限环境下实时跟踪的目标。

3.2 基于预定义锚框的RPN模块

RPN模块包含两个分支，分别为分类分支与回归分支，旨在生成k个包含可能目标的边框。RPN模块第一次在跟踪领域的应用是在SiamRPN算法中，随后也衍生出了性能优秀的DaSiamRPN算法、SiamRPN++算法、SPM-Tracker算法。

但是，RPN网络的性能依赖于预定义的超参数，例如生成锚框数k与建议框预定义尺寸。若生成锚框数k过大，则会对性能产生影响；k过小则会严重影响精度。并且，RPN网络对于生成锚框的纵横比做出了预定义，如果遇到形态变化剧烈的跟踪目标，则会遭遇跟踪丢失的情况。即RPN网络的人为设置的超参数限制了跟踪模型的速度与鲁棒性，探索适合RPN网络的超参数或者自动学习适合RPN网络的超参数是值得探究的话题。

3.3 相关滤波方法与卷积特征的结合

在视觉跟踪任务中，滤波器只对于跟踪目标相似的区域产生高响应比信号。在深度学习方法被提出之前，目标跟踪领域的工作主要集中在通过相关滤波方法进行跟踪（例如MOSSE算法、CFT算法、KCF算法）。

随着CNN结构的发展，研究者注意到卷积操作与相关滤波算法的相似性，故将二者结合起来以获得更好的跟踪性能。DCFNet算法、CFCF算法、C-COT算法、ECO算法、DeepSTRCF算法、UPDT算法都是运用基于CNN的骨干网络提取特征。例如UPDT算法，通过骨干网络提取深层语义特征获取目标的鲁棒性特征，再通过传统的HoG与CN特征获得目标特征的精确性特征，并将其分开训练，再结合相关滤波算法以达到跟踪精度与速度上的平衡。

4 总结与展望

本篇文章以运算资源受限场景为出发点，系统梳理了近年来基于深度学习的目标跟踪网络模型，为研究人员在模型设计策略、训练数据集与网络压缩方法的选择方面提供了便利。首先总结了网络跟踪模型的通用体系结构，并根据体系结构的不同模块，介绍了现有网络模型的设计策略；其次，详尽总结了现有的目标跟踪数据集，根据数据集发表的年份、涵盖数据的特征进行了阐述，而且汇总了跟踪方法的评价指标与计算方法；最后总结可用于运算资源受限环境下的模型改进策略。

目标跟踪作为计算机视觉的重要组成部分，在许多热门领域都有所应用。但是目标跟踪技术领域仍然存在许多问题亟待深入系统的研究。同样地，这些问题也指引着研究人员继续探索的脚步，例如：

（1）实时跟踪

边缘设备的跟踪场景决定了其对跟踪算法实时性的高要求。除此之外，深度神经网络的准确性也应当受到关注。在不显著降低预测精度与训练过程时间复杂度的前提下，压缩模型的参数数量，降低模型拓扑结构的复杂度与计算开销。当前已有研究者们在模型压缩领域取得了重要的成果，将跟踪算法与神经网络模型压缩技术结合（包括模型剪枝、权重量化与知识蒸馏等方法）或计算加速方法，根据具体使用场景的特点寻找到满足不同种类边缘设备需求的跟踪方法。

（2）长时跟踪

已有的跟踪算法主要集中在短时跟踪的场景，并达到了较高的跟踪结果。但是，边缘设备对长时跟踪的需求同样不容忽视。相比于短时跟踪，研究者们对长时跟踪方法的研究相对较少。并且已有跟踪算法在面对长时跟踪任务时的表现也有待验证。长时跟踪任务的主要挑战是历史帧中的错误会不断累积，导致跟踪效果会不断下降；并且长时跟踪训练样本也相对较少。因此，在跟踪器表现降低时消除误差或在全搜索图像内进行重检测的将会是有价值的研究方向。

（3）疑难场景的处理

在2.1节中列举了跟踪场景中存在的难点场景（例如光照变化、尺度变化、目标消失等）。现有的目标跟踪方法无法在所有特殊条件下都表现良好的效果，根据“没有免费的午餐”原则，也无法找到能够适配所有条件的跟踪算法。但是，构建合适的网络结构以获取目标的鲁棒特征表示，仍然是研究者们需要持续研究的方向，在此基础之上，结合具体的工作环境，选择符合要求的训练集，以最大限度地满足任务要求的需求。