基于多特征提取和自适应关键滤波器的目标跟踪算法

2023-12-14 00:40刘惠临轩文杰
关键词:关键帧精准度滤波器

刘惠临,轩文杰

(安徽理工大学 计算机科学与工程学院,安徽 淮南 232001)

目标跟踪是计算机视觉领域的重要研究方向,随着科技的发展和社会的进步,视觉技术在自动驾驶、交通流监测、人机交互、机器人技术和医疗诊断系统等领域具有广阔的应用前景[1-3]。目标跟踪是指在视频的后续帧中找到当前帧中定义的感兴趣目标的过程[4]。由于在跟踪目标过程中一些场景的变化会对跟踪结果产生影响,如遮挡、尺度变化、形变等,为了解决这些问题,众多学者进行了大量研究[5]。如Judy等[6]将信号的相关滤波引进目标跟踪,提出了最小输出和相关滤波器(minimum output sum of squared error,MOSSE)跟踪算法,在跟踪过程中,将滤波器与当前图像帧相关联,响应得分最高的位置即为跟踪结果。相关滤波跟踪算法是将时域中的卷积运算转换为频域运算,降低了运算复杂度,保证了跟踪算法的实时跟踪能力。Henriques[7]提出了核函数相关滤波的循环结构目标跟踪(circulant structure of tracking-by-detection with kernels,CSK)算法,在MOSSE的基础上添加正则项以防止出现过拟合,同时引入了循环矩阵和核函数以提高运算速率。随后,又将多通道的方向梯度直方图 (histogram of oriented gradients,HOG) 特征引入到CSK框架中,提出了核相关滤波(kernelized correlation filter,KCF)跟踪算法[8],扩大了负样本的数量以提高跟踪器的性能,同时利用脊回归训练目标检测器。

近年来,众多研究人员以KCF算法为基础提出了许多高性能的目标跟踪算法。由于KCF算法使用的HOG单一特征对复杂背景的特征表达能力有限以及没有对尺度变化进行处理,可能会出现跟踪精度低和不能适应目标尺度变化的问题。对此,Danelljan等[9]提出了判别式尺度空间跟踪(discriminative scale space tracking,DSST)算法,使用尺度滤波器解决目标的尺度变化,这使得该算法有33种尺度变化。Song等[10]提出了尺度自适应目标跟踪(scale adaptive with multiple features tracker,SAMF)算法,将HOG特征与颜色名称特征进行融合替代单一的HOG特征,同时引入尺度池,计算7种尺度下的响应值,选取响应值最大的尺度为最佳尺度,实现了部分场景下的有效跟踪目标。陈法领等[11]使用HOG特征与颜色名称特征,分别训练2个核相关滤波器,并对2个滤波器的响应结果进行融合,完成目标的位置估计。李聪等[12]将HOG特征和局部二值化(locally assembled binary,LAB)特征融合后得到图像的多通道特征,将该多通道特征作为输入量,使得目标外观在多特征融合下得到更好描述,经过训练的分类器对目标的检测准确性也得到了提高。马康等[13]将HOG特征和颜色名称特征通过线性加权融合的方法代替原先的单特征,解决了单一HOG特征对目标判别能力有限的问题。为了减轻KCF算法的边界效应,背景感知相关滤波(background-aware correlation filters,BACF)跟踪算法[14]从分类器的训练入手,通过对样本的密集采样来扩大正负样本的数量,并将密集采样得到的样本全部用于分类器的训练。

但是,上述算法在背景杂乱、目标快速运动和有遮挡等复杂场景下仍会出现跟踪精度下降和目标丢失等问题。因此,提出基于多特征提取和自适应关键滤波器的目标跟踪算法(multi-feature extraction and adaptive key filter based object tracking algorithm,MEAKF),在HOG特征的基础上增加卷积神经网络提取图片的深度浅层卷积特征和深度高层卷积特征,并分别训练3种滤波器,计算各自的响应图,对其进行加权融合,定位最佳位置。然后,对于后续帧图像,基于跟踪目标感兴趣区域的相似度对视频序列中的关键帧图像进行判断,同时在关键帧图像上采用深度高层卷积特征训练的滤波器作为关键滤波器,以此得到自适应关键帧和关键滤波器。最后,对于非关键帧图像上的目标采取HOG特征训练的滤波器和深度浅层卷积特征训练的滤波器进行定位跟踪,对于关键帧图像上的目标则在非关键帧图像目标定位的基础上,加上关键滤波器进行跟踪定位。

1 相关滤波目标跟踪算法原理

相关滤波目标跟踪算法的原理是首先在初始帧确定的目标位置提取特征,根据初始帧提取的特征训练滤波器;然后在跟踪过程中,根据前一帧中的目标位置,在当前帧中估计包含目标的图像块。通过离散傅里叶变换执行相关滤波操作;最后通过傅里叶逆变换得到响应图,响应得分最大值所在位置即为目标在当前帧中的新位置。对于图像来说,要找到1个滤波模板h,与输入图像f求相关性,以得到响应图g。它们之间的关系可描述为

g=f⊗h,

(1)

对上式进行快速傅里叶变换(F),其中的卷积操作⊗就变成了点乘操作·,极大降低了计算量。如下所示:

F(g)=F(f)·F(h)*,

(2)

对其进行简化,为

G=F·H*,

(3)

其中,G、F、H分别表示g、f、h的傅里叶变换结果。关键问题在于求解滤波器H*。

MEAKF算法以KCF算法为基准进行改进,KCF算法中训练滤波器的误差函数为

(4)

其中,w为待求解的滤波器,n为样本标签的个数,yi为第i个标签的真实值,f(xi)为预测值,λ为正则化参数。简化式(4)并在傅里叶域进行计算可得到滤波器w的最优解为

(5)

其中,^表示在傅里叶域中,*表示复共轭,X、Y分别表示xi、yi的矩阵形式。在确定跟踪目标的位置之后,需要对当前帧的滤波器和目标外观模型进行更新。滤波器系数α和目标观测模型x为

(6)

其中,t为当前帧,t-1为前一帧,θ为学习率。

2 MEAKF算法

2.1 算法流程

MEAKF算法流程如图1所示。由图1可知,整个算法流程分为2个阶段:初始帧阶段与后续帧阶段。初始帧阶段为后续帧阶段提供相应的滤波器,在初始帧阶段训练的滤波器可用于后续帧阶段的目标定位。在此过程中会得到3个滤波器,将提取深度特征中卷积3-1特征训练的滤波器作为MEAKF的关键滤波器。后续帧阶段会将初始帧阶段得到滤波器用于后续帧图像的跟踪目标定位,具体来说,即在初始帧中得到的3个滤波器被用于后续帧的定位过程中,对于后续帧的感兴趣区域提取对应的特征,然后将相应特征和相应的滤波器进行计算得到相应的特征响应图,再根据关键帧的判断,对不同帧的各个响应图进行加权融合,对于融合后的响应图取其最大值对应的位置即可得到目标位置。这里需要对后续图像帧是否为关键帧进行判断,关键帧的判断流程将在2.3节中详细描述。另外,在跟踪过程中会出现目标尺度变化,因此MEAKF算法使用了不同尺度对被跟踪的目标进行计算以得到最佳尺度,保证了尺度变化情况下算法的稳定性。最后更新滤波器,完成后续操作直至视频序列结束。

注:图中的×表示特征与滤波器进行计算。图1 算法的流程Fig.1 Algorithm flow

2.2 多特征提取和自适应融合

使用HOG手工特征的KCF算法和使用多种手工特征融合的其他相关滤波跟踪算法,在尺度变化和旋转等场景下可能会出现跟踪漂移和跟踪失败等问题。因此,MEAKF算法提出使用HOG特征与深度特征作为滤波器的训练特征,完成对目标的精准定位。由于3种特征的维数较高,直接使用会影响算法的速度,所以在不损失图像信息的情况下使用PCA方法对特征进行降维,从而减少计算量,加快算法跟踪速度。

2.2.1 目标区域HOG特征提取 HOG特征可以很好地表达图像的局部信息,对图像几何和光学形变具有不变性,因此被普遍应用于视觉跟踪领域。HOG特征是在2005年由Navneet Dalal和Bill Triggs提出的,后来受到众多研究人员的认可。HOG特征是在灰度图像上进行提取,其流程为:首先,将图像进行灰度化处理得到灰度图像,选择需要提取的图像特征区域作为检测窗口,并使用Gamma方式对检测窗口进行归一化操作,计算检测窗口图像中每个像素的梯度;然后,将图像分成多个细胞,计算每个细胞的梯度直方图;最后,将4个细胞组成1个块,将4个细胞的梯度直方图进行串联得到1个块的梯度直方图,再将图像中所有块的梯度直方图进行串联,得到的梯度直方图就是最终提取的图像HOG特征。

2.2.2 目标区域深度特征提取 近年来,由于卷积神经网络的不断发展,卷积神经网络模型大量涌现,包括GoogleNet、VGGNet、ResNet等。使用卷积神经网络模型提取的特征有以下特点:深度浅层卷积特征空间分辨率高,包含更多纹理信息,但不适应形变和旋转场景;深度高层卷积特征具有更多的语义信息,对于旋转和尺度变化具有不变性。提出的MEAKF算法采用ImageNet预训练模型VGGNet-19提取图像特征,该模型具有结构简单、易于使用的特点和强大的语义表达能力。为了提高在复杂条件下的跟踪效果,借鉴文献[15]中的特征提取方式并加以改进。由于MEAKF算法已经提取了HOG特征,其与卷积1层特征都是对目标表面纹理信息的表示,另外,卷积5层特征具有高级语义信息,而使目标定位更加准确要依靠更多的纹理信息,因此在使用HOG特征的情况下不使用卷积1层特征和卷积5层特征。根据对卷积2-1、卷积3-1、卷积4-1不同卷积特征与HOG特征组合的结果,最终选取卷积2-1和卷积3-1这2层卷积特征作为提取的深度特征,特征可视化结果如图2所示,不同深度特征组合的结果将在算法消融性实验中展示。由图2可知,卷积2-1的卷积特征具有丰富的纹理细节,卷积3-1的卷积特征具有同时包含纹理细节以及语义信息的优点。

(a) 原图 (b) 卷积2-1特征 (c) 卷积3-1特征图2 VGGNet-19卷积层输出结果的可视化Fig.2 Visualization of VGGNet-19 convolutional layer output results

2.2.3 融合HOG特征和深度特征 采用VGGNet-19中的卷积2-1特征和卷积3-1特征以及目标周围区域的HOG特征,将每个特征单独训练1个滤波器,计算滤波器与下一帧感兴趣区域的测试样本,得到特征响应fconv2-1(z)、fconv3-1(z)、fHOG(z)。因为关键帧与之前的帧有较大变化,要在关键帧上提取更多的特征信息来准确定位目标位置。因此,若图像为关键帧,则将fconv2-1(z)、fconv3-1(z)、fHOG(z)这3个响应图进行加权融合,否则将fHOG(z)、fconv2-1(z)这2个特征响应图进行加权融合,如式(7)(8)所示:

fk(z)=αfconv2-1(z)+βfconv3-1(z)+γfHOG(z),

(7)

f(z)=afconv2-1(z)+bfHOG(z),

(8)

其中,fk(z)是关键帧上最终的响应图,f(z)是非关键帧上最终的响应图,z表示待检测样本,conv表示卷积,α、β、γ、a、b为特征响应图的融合系数,各系数实验结果如表1所示。由表1可知,根据精准度和成功率最高值,对于特征信息较多的响应图赋予较高的权重。先固定关键帧系数,然后对非关键帧系数进行比较,选择a=0.7、b=0.3;再将非关键帧系数固定,对关键帧系数进行比较,选择α=0.3、β=0.5、γ=0.2。

表1 不同系数结果对比Tab.1 Comparison of different coefficient results

2.3 自适应关键帧和关键滤波器

MEAKF算法在KCF算法的基础上考虑自适应关键帧和关键滤波器,关键滤波器在关键帧上得以体现。关键帧是通过比较2帧图像跟踪目标感兴趣区域的相似度进行判断,自适应关键帧判断流程如表2所示。由表2可知,在判断后续图像帧是否为关键帧时,需要设定1个阈值p,若2帧之间的相似度值小于阈值p,则判定此帧为关键帧;否则判定此帧为普通帧。对不同判定结果的图像帧采用2.2.3节的计算方式进行跟踪目标的定位。

表2 自适应关键帧的判断流程Tab.2 Judgment flow of adaptive keyframes

关键滤波器以关键帧为基础,在更新关键滤波器时,其受限于前一关键帧图像中的关键滤波器,更新公式为

wk=ηwk-1,

(9)

其中,关键滤波器为wk,wk-1为前一关键帧图像中的关键滤波器,η是权重因子。

3 实验结果与分析

3.1 实验环境与数据

实验在Matlab 2022a仿真平台运行,操作系统为Windows 10 64位,处理器为Intel(R) Core(TM) i7-7500U CPU @ 2.90GHz,运行内存为8GB,学习率等参数设置与原始KCF算法保持一致。

采用目标跟踪基准(object tracking benchmark,OTB)数据集,其中包含了多种复杂的运动场景,如遮挡、形变、运动模糊、旋转、离开视野、低分辨率等。OTB数据集的出现促进了目标跟踪领域的发展,同时也成为了评价目标跟踪算法性能的标准数据集之一。MEAKF算法采用以下3 种指标对算法性能进行评估。

1) 精准度。衡量跟踪精度的评价指标是中心距离误差,定义为跟踪算法估计的目标中心位置与人工标注的目标中心位置之间的欧式距离,其公式为

(10)

C=dis(p1,p2),

(11)

其中,P为精准度,NA(C<ε)为距离小于阈值的视频帧数,NB为视频总帧数,dis(·)为预测目标位置p1与真实目标位置p2之间的欧式距离,C为一帧中的中心位置误差。

2) 成功率。若跟踪算法估计的边界框与人工标注的真值框之间的重叠率O超过设定的阈值Ф,则视为跟踪成功,成功率表示为跟踪成功的帧数NA占视频所有帧数NB的百分比,其公式为

(12)

(13)

其中,S为成功率,Mt为跟踪框,Ma为真值框,Mt∩Ma为重叠的区域,Mt∪Ma为覆盖区域,|·|为所在区域内的像素点个数。

3) 跟踪算法的速度,单位为帧/s。

3.2 实验结果

3.2.1 定性分析 实验采用OTB数据集进行测试,与其他6种经典目标跟踪算法SAMF、DSST、KCF、CSK、稀疏协同外观模型(sparse collaborative appearance model,SCM)、跟踪-学习-检测算法(tracking-learning-detection,TLD)进行比较。MEAKF算法与其他6种算法在OTB数据集上的部分测试视频序列结果如图3所示,图中左上角的黄色数字为图片在视频中的帧数。图3(a)是篮球视频序列,该视频序列中跟踪的目标是在篮球场上的运动员,主要具有形变和背景复杂的属性特点。由图3(a)可知,在第10帧图像上各算法都能准确跟踪目标;在第62帧图像上TLD算法跟踪失败,KCF算法跟踪框未能完全成功,MEAKF算法跟踪成功;在第98帧图像上DSST、SCM、TLD算法跟踪失败,KCF算法跟踪效果不佳,MEAKF算法跟踪结果准确。图3(b)是旅鼠视频序列,该视频序列中跟踪的目标是玩具旅鼠,主要具有遮挡和尺度变化的属性特点。由图3(b)可知,在第37帧图像上所有算法均能跟踪成功;在第339帧图像上CSK和SCM算法跟踪效果不如MEAKF算法和其他算法;第381帧图像上KCF算法跟踪失败,MEAKF算法跟踪结果准确。图3(c)是鹿视频序列,该视频序列中跟踪的目标是在水面上奔跑的鹿,主要具有快速运动和运动模糊的属性特点。由图3(c)可知,在第10帧图像上MEAKF算法与KCF算法均跟踪成功;在第27帧图像上KCF算法跟踪失败,MEAKF算法跟踪成功;第55帧图像上KCF算法跟踪效果不佳,MEAKF算法跟踪结果准确。图3(d)是足球员视频序列,该视频序列中跟踪的目标是足球运动员,主要具有遮挡和背景复杂的属性特点。由图3(d)可知,在第21帧图像上所有算法均跟踪成功;在第75帧图像上MEAKF算法和SAMF算法跟踪成功,其余算法均跟踪失败;第111帧图像上TLD、SCM和CSK算法跟踪失败,MEAKF算法跟踪结果准确。

(a) 篮球 (b) 旅鼠 (c) 鹿 (d) 足球员图3 对比算法在部分视频序列上的结果Fig.3 Results of algorithm comparison on partial video sequences

3.2.2 定量分析 MEAKF算法与其他6种经典算法的实验结果如表3、表4所示,其中展示了7种场景下的结果,分别是尺度变化(scale variation,SV)、遮挡(occlusion,OCC)、形变(deformation,DEF)、平面内旋转(in-plane rotation,IPR)、平面外旋转(out-of-plane rotation,OPR)、离开视野(out-of-view,OV)和背景复杂(background clutters,BC)。表3展示了不同算法的跟踪精准度,表4展示了跟踪成功率,由表3、表4可知,MEAKF算法在成功率和精准度上均高于其他6种算法,证明了MEAKF算法的有效性。

表3 算法的性能精准度对比Tab.3 Performance precision comparison of the algorithms

表4 算法的性能成功率对比Tab.4 Performance success rate comparison of the algorithms

MEAKF算法与其他6种经典算法在OTB数据集上的测试结果如图4所示。图4(a)展示了各种算法的精准度,图例为算法名称[精准度的值];图4(b)展示了各种算法的成功率,图例为算法名称[成功率的值]。由图4可知,MEAKF算法的精准度为0.492,成功率为0.576;相比KCF算法,精准度提升了0.051,成功率提升了0.104;相比DSST和SAMF算法,精准度分别提升了0.021和0.020,成功率分别提升了0.078和0.041。与其他几种算法比较,MEAKF算法的精准度和成功率均更高。

(a) 精准度 (b) 成功率图4 算法在OTB数据集上的测试结果Fig.4 Algorithm test results on the OTB dataset

此外,MEAKF算法与其他6种经典算法(SAMF、DSST、KCF、CSK、SCM、TLD)的跟踪速度分别为3.6、19.2、13.5、109.9、126.8、0.5、28.1帧/s。由此可知,MEAKF算法的速度相比于SAMF和DSST等经典相关滤波算法的速度低很多,这是因为MEAKF算法的时间消耗在多层深度卷积特征的计算和判断关键帧的过程中,这点有待进一步改进。

3.3 消融实验

3.3.1 定性分析 MEAKF算法与KCF-HC、KCF-KF、KCF算法在OTB数据集上的部分测试视频序列的结果如图5所示,图中左上角的黄色数字为图片在视频中的帧数。其中,KCF-HC表示只使用HOG特征与CNN特征的算法,KCF-KF表示只使用关键帧和关键滤波器的算法。图5(a)是歌唱家视频序列,在该视频序列中跟踪的目标是在舞台上唱歌的歌手,主要具有光照变化和背景复杂的属性特点。由图5(a)可知,在第10帧图像上各算法都能准确跟踪目标;在第17帧图像上KCF、KCF-HC、KCF-KF算法跟踪效果不佳,MEAKF算法跟踪成功;第41帧图像上KCF、KCF-HC、KCF-KF算法跟踪失败,MEAKF算法跟踪结果准确。图5(b)是老虎视频序列,在该视频序列中跟踪的目标是布偶老虎,主要具有离开视野和遮挡的属性特点。由图5(b)可知,在第12帧图像上各算法都能准确跟踪目标;在第41帧图像上KCF算法跟踪效果不佳,KCF-HC算法比KCF和KCF-KF算法跟踪效果好,但不如MEAKF算法;第83帧图像上KCF、KCF-HC、KCF-KF算法跟踪效果都不如MEAKF算法好。

3.3.2 定量分析 MEAKF算法采用了自适应关键帧和关键滤波器以及多特征融合的改进方法,对MEAKF算法进行消融实验,结果如表5、表6所示。表中使用均值(average value,AV)衡量算法在数据集上的整体效果。由表5、表6可知,KCF-HC在OTB数据集多种属性上的成功率和精准度均高于KCF和KCF-KF算法,再加上关键帧以及关键滤波器得到的MEAKF算法在成功率和精准度上均高于其余算法,由此可知MEAKF算法是有效的。

表5 消融性对比算法的性能精准度对比Tab.5 Performance precision comparison of ablative comparison algorithms

表6 消融性对比算法的性能成功率对比Tab.6 Performance success rate comparison of ablative comparison algorithms

3.3.3 多特征组合消融实验 多特征组合算法的实验结果如表7所示。由表7可知,只展示卷积2层、3层、4层在关键帧和非关键帧上与HOG特征组合的结果,HOG特征为共有特征,不在表中体现;对不同组合的结果命名为MEAKFm+n,即关键帧上为卷积m层和卷积n层特征,非关键帧上为卷积n层特征;结果表明,使用卷积2层和卷积3层作为提取的特征效果较好。

表7 不同卷积层特征组合结果对比Tab.7 Comparison of the results of different convolutional layer feature combinations

算法中多特征组合的消融实验在OTB数据集上部分视频序列的测试结果如图6所示,图中左上角的黄色数字为图片在视频中的帧数。图6(a)是溜冰运动员视频序列,在该视频序列中跟踪的目标是溜冰运动员,主要具有快速移动和遮挡的属性特点。由图6(a)可知,在第10帧图像上各个多特征组合算法都能准确跟踪目标;在第86帧图像上MEAKF3+2组合算法跟踪效果最佳;第99帧图像上MEAKF3+2和MEAKF2+3组合算法跟踪效果最佳。图6(b)是摇滚歌唱家视频序列,在该视频序列中跟踪的目标是舞台上的摇滚歌手,主要具有光照变化和背景复杂的属性特点。由图6(b)可知,在第10帧图像上各个多特征组合算法都能准确跟踪目标;在第29帧图像上MEAKF3+4和MEAKF4+3组合算法效果最差;第102帧图像上MEAKF3+2组合算法跟踪效果最好。

(a) 溜冰运动员 (b) 摇滚歌唱家图6 多特征组合消融在部分视频序列上的结果Fig.6 Results of multi-feature combination ablation on partial video sequences

4 结论

为解决算法在背景杂乱、目标快速运动和有遮挡等复杂场景下出现跟踪精度下降、目标丢失等问题,提出基于多特征提取和自适应关键滤波器的目标跟踪算法(MEAKF)。算法对比实验结果表明,采用图像的HOG特征、深度浅层卷积特征、深度高层卷积特征和自适应关键滤波器的MEAKF算法在跟踪成功率和精准度上都有了明显的提升。3种特征的结合使用在目标的表达能力上比HOG特征的目标表达能力更有优势。另外,MEAKF算法在跟踪结果上优于其他6种经典算法,证明了MEAKF算法的有效性。消融实验结果表明,在视频序列中自适应的选取关键帧、关键滤波器和多特征融合的跟踪结果更好,这是因为在关键帧图像上增加了关键滤波器,能够定位更加准确的目标位置,说明MEAKF算法的自适应关键帧、关键滤波器和多特征融合的思路是有效的。

但MEAKF算法尚有一些不足,如由于增加了深度特征以及尺度变化,对于算法的速度有所影响。另外,在不同场景下MEAKF算法选择3个固定的特征,如何为不同场景选择更为有效的特征成为亟待解决的问题。同时,所有的视频序列都是采取同一种关键帧判断方式,如何为不同视频选取不同的关键帧判断方式也是需要解决的问题,这些将是下一步研究的方向。

猜你喜欢
关键帧精准度滤波器
灵动的技巧确保解题精准度
BH66F5355 增強型24-bit A/D MCU
让党建活动更加有“味”——礼泉县增强“两新”党建精准度
从滤波器理解卷积
开关电源EMI滤波器的应用方法探讨
论提高不动产产权保护精准度的若干问题
基于改进关键帧选择的RGB-D SLAM算法
基于Canny振荡抑制准则的改进匹配滤波器
基于相关系数的道路监控视频关键帧提取算法
基于TMS320C6678的SAR方位向预滤波器的并行实现