多尺度注意力融合和抗噪声的轻量点云人脸识别模型

2023-01-13 07:28文,李冬,袁
图学学报 2022年6期
关键词:人脸人脸识别注意力

郭 文,李 冬,袁 飞

多尺度注意力融合和抗噪声的轻量点云人脸识别模型

郭 文1,李 冬1,袁 飞2

(1. 山东工商学院信息与电子工程学院,山东 烟台 264005;2. 中国科学院信息工程研究所,北京 100195)

在低质量点云人脸数据集上,判别性特征的提取和模型对噪声的鲁棒性是解决点云人脸识别问题的关键。针对现有轻量点云人脸识别算法不能充分提取判别性特征和数据集中存在大量噪声而影响模型训练的问题,设计轻量高效的网络模型,提出了基于多尺度注意力融合和抗噪声的自适应损失函数的点云人脸识别算法。首先通过不同卷积模块获得不同感受野大小的特征图。然后进行多尺度的注意力特征提取,并使用高层的注意力权重来引导低层注意力权重的生成,最后进行通道融合得到多尺度融合的特征,提升了模型捕获人脸细节特征的能力。其次,根据低质量点云人脸图像的噪声信息特点,设计了一种新颖的抗噪声的自适应损失函数(anti-noise adaptive loss),以应对数据集大量噪声对模型训练过程中可能造成的负面影响,提升模型的鲁棒性和泛化能力。在开源数据集Lock3DFace和本文提出的KinectFaces数据集上的实验结果表明,与当前的主流算法相比该算法模型在低质量点云人脸识别任务中具有更好的识别效果。

点云人脸识别;注意力融合;注意力特征提取;损失函数

1 概 述

基于点云的人脸识别是计算机视觉领域中活跃的课题之一,同时也面临着许多的挑战。与3D点云人脸识别相比,基于2D图像的人脸识别取得了巨大的进步[1-2]。然而,2D人脸识别在光照和姿态变化等复杂环境下性能不稳定。随着3D成像系统的快速发展,2.5D或3D人脸识别已经成为处理2D人脸识别任务中未解决问题的主要替代方法。许多研究表明,3D人脸识别不仅自身能取得与2D人脸识别相媲美的识别结果[3],而且与2D人脸识别任务具有良好的互补性。

数据集对人脸识别发展起着重要影响,大规模的2D人脸数据集使得基于卷积神经网络的2D人脸识别算法取得了巨大成功。如,使用200万人脸数据训练的FaceNet[4]算法在LFW[5]数据集上达到了99.63%的准确率。然而,3D人脸数据集受限于特定的采集设备,导致3D人脸数据集资源远少于2D人脸数据集。3D人脸识别数据集有FRGC V2.0[6],Bosphorus[7],BU3D-FE[8]和Lock3DFace[9]等,其中最大的FRGC V2.0仅包含466个人的4 007张3D人脸图像,Bosphorus数据集也仅包含105个人的4 666张图像。与2D人脸数据集WebFace260M[10]包含4万个体的千万张人脸图像对比,3D人脸数据集十分匮乏。另一方面,FRGC V2.0和Bosphorus数据集是通过高精度扫描仪进行采集,制作成本极高,限制了数据集规模的提升。

近年来,消费级深度相机如Kinect和RealSense逐渐走向市场。相较于高精度3D扫描设备,该类型相机更加低廉轻便,且有着更高的帧率以保证数据的实时获取。如图1所示,第1行高精度扫描设备获取到的可视化人脸信息;第2行消费级深度相机获取的人脸图像有着大量噪声,并可能出现大面积的空洞缺失;第3行展现了使用消费级深度相机在戴眼镜群体中拍摄时可能出现的不规则光噪声问题。因此,通过消费级深度相机获得的数据需要人脸识别算法对噪声有着较高的鲁棒性。如,在最大的低质量3D人脸数据集Lock3dFace上识别率最高的Led3D[11]网络,也仅有54.28%识别率。该模型对噪声的鲁棒性差是准确率低的主要原因。

因此,基于消费级深度相机的3D人脸识别发展潜力巨大。为了解决上述问题,本文构建一种可以有效提取人脸判别性特征信息并对噪声有较强鲁棒性的3D人脸识别算法模型至关重要。

1.1 相关工作

本节将简要叙述3D人脸识别方法、CNN中的多尺度注意力特征融合、人脸损失函数的相关工作。

二维人脸识别的高准确率验证了基于神经网络的特征提取方法非常适用于人脸识别。VGG-Face[12]是首个使用卷积神经网络来进行3D人脸识别的模型。该模型将预处理后的点云人脸图像降维成2D,并输入到模型中进行初步训练。该方法使用降维的点云人脸图像进行模型的微调,解决了3D图像在传统神经网络中输入维度不一致的问题,为后续基于神经网络的3D人脸识别框架提供了基础范式。文献[13]提出了一种基于PointNet[14]的网络模型。该模型可以将点云图像直接作为模型的输入,解决了3D图像降维到2D而产生的信息丢失问题。虽然该模型提升了识别准确率,但是点云图像直接作为网络模型的输入产生了巨大的计算成本,不适用于实时的人脸识别。文献[15]提出了动态类别序列方法,训练过程中每次迭代,均动态选择类别子集,解决了大规模人脸识别任务中的长尾分类问题。文献[11]利用3D人脸识别的轻量级CNN,对于低质量人脸数据集的识别有较高的准确率和识别速度。该网络通过多尺度特征融合模块,有效地改善了低质量人脸数据的表示,但特征的提取与融合通过简单的下采样和特征叠加,有较大改进空间。

多尺度的注意力机制,来自不同层或分支的注意力特征的组合。受到人类视觉注意力的启发,注意力机制也应用于深度学习中[16-17]。最初的多尺度注意力机制是基于全局尺度。如,Self-attention通过矩阵相乘来提取每个词在文本中的全局依赖[18]或每个像素在整个图像中的全局依赖[19-20]。有许多在大规模的分类任务中使用注意力来提高卷积神经网络(convolutional neural network,CNN)性能的研究,如,squeeze and excitation (SENet)压缩全局空间信息输出通道描述符来捕获通道依赖[21]。更接近本文的是convolutional block attention module (CBAM)网络[22],该网络结合通道注意力和空间注意力来提取特征信息。在CBAM中使用全局最大池化和全局平均池化来计算通道注意力。然而,本文验证了在点云人脸识别中使用全局池化是次优的。通过全局池化来获得通道注意力忽略了通道注意力中的空间信息,导致模型更加关注图像背景信息而不能很好地捕获人脸细节的局部特征信息。

将不同大小卷积核得到的特征图进行融合即多尺度特征融合。MARDC-MVSNet[23]将–1个源图像特征图与参考图像特征图进行融合,使得模型可以生成稠密点云。然而,在3D维度进行图像特征的处理将耗费巨大的计算开销。Led3D[11]网络将不同卷积块得到的特征通过简单串联的方式在通道维度上进行叠加,该方式可能导致模型来自多尺度输出特征通道间特征相关性的缺失[24]。

如何合理地设计损失函数对加强深度卷积神经网络在类别之间识别能力是非常重要的。Center loss[25]通过惩罚深度特征及相应类别中心点的欧氏空间距离来实现类内相近的目的。L-Softmax[26]将原始的Softmax进行了改进,提出了角度的边界约束来限制类间距离。SphereFace[27]在L-Softmax的基础上对权重进行了归一化,认为最后一个全连接层的线性变换矩阵可以作为角度空间类别中心的表示,通过乘法的方式来惩罚深度特征与相应权重间的角度,为损失函数的设计提供了清晰的几何解释。Focal loss[28]根据特定任务中数据集数据不平衡的特点,提出一个难样本挖掘损失函数,来降低数据集中易分样本的权重。在特定的人脸识别任务中,不同的损失函数可能发挥出不同的效果。在点云人脸识别任务中,数据集不仅质量低,更会出现没有判别信息的问题,如图1第2行所示,在这种情况下传统的损失函数无法应对大量含噪数据的干扰。

1.2 本文工作

本文提出结合多尺度注意力特征融合和抗噪声的自适应损失函数的方法,流程如图2所示。该方法主要包含3个模块:

(1) 轻量的CNN特征提取模块。为了实现模型的高效,减少参数量和内存开销,主干网络仅由4个Block组成,每个Block的组成如图2所示,由一个的卷积层、BatchNormal层和ReLU层组成。4个模块中每个卷积核的宽度分别为32,64,128和256。经过4个模块的特征提取,获得4个不同感受野大小的特征图,为后续多尺度注意力特征融合提供前提条件。

(2) 多尺度注意力特征融合模块(multi-scale attention feature module,MS-AFM)。通过将不同卷积核大小得到的特征图来进行注意力特征的提取,并由高层的注意力权重来引导低层注意力权重的生成,获得不同尺度特征图的注意力特征,并最终在通道维度进行连接。

(3) 抗噪声的自适应损失函数模块(anti-noise adaptive loss,AN Loss)。在全连接层后的Softmax输出基础上加了自适应调节因子,最终实现抗噪声的自适应损失函数的设计。

本文工作的主要创新如下:

(1) 提出了一个针对3D点云人脸识别的多尺度注意力融合模块,可以学习全局注意力和局部注意力相融合的特征解决了传统注意力特征过于关注背景信息而丢失了局部细节信息的问题;通过高层注意力特征来辅助低层注意力特征的生成,解决了传统串联特征融合方式忽略了来自多尺度输出特征的不同通道间特征相关性的问题。

(2) 提出了一个抗噪声的自适应损失函数,该损失函数可以使得网络自适应地弱化噪声对模型训练的负面影响,提高模型的鲁棒性和泛化能力。

(3) 为了缓解低质量点云人脸数据集的匮乏,本文建设了一个包含60个人和4个类别的低质量点云人脸数据集KinectFaces。本文所提出的轻量点云人脸识别模型在公开数据集Lock3DFace和本文提出的KinectFaces数据集上取得较好的识别准确率,显示了本算法良好的识别性能和泛化能力。

2 基于多尺度特征融合与抗噪声的网络框架

在低质量3D人脸识别任务中,由于输入到网络的数据会经过图像的预处理,人脸一般位于图像的固定位置。因此,为了提取图像特征固定位置的语义信息,提升模型识别精度,本文提出多尺度注意力特征融合模块MS-AFM。

2.1 多尺度注意力融合机制

2.1.1 CBAM中通道注意力机制

考虑到人脸识别任务的特殊性,待分类的人脸特征位于图像的固定位置,全局最大池化不同于全局平均池化可以减少无用信息的影响,保留更多固定位置的语义信息。此外,为了保留更多固定位置的语义线索,本文分别采用全局最大池化来保留全局注意力和使用最大池化来保留局部注意力相结合的方式来保留更多有用的信息。

2.1.2 融合局部注意力的通道注意力机制

为了提取通道间的空间信息,分别通过全局最大池化和最大池化来取得通道全局注意力和通道局部注意力。为了保持模型的轻量性,2个分支分别用逐点卷积来融合通道信息,保存图像在每个空间位置上的通道信息。通道局部注意力()ÎR×H×和通道全局注意力()ÎR×H×分别为

在局部通道注意力()中,为经过最大池化后的特征,池化卷积核大小7×7。1的卷积核大小为/×1×1,2的卷积核大小为×1×1。全局通道注意力()通过全局最大池化输出到两层卷积核、通道数和局部注意力分支一样的分支中。全局注意力采用全局最大池化而不是全局平均池化,可以获取人脸在固定位置的特征线索。通道局部注意力采用最大池化和两层卷积,可以保留通道信息中的空间线索,可以更准确地提取特征的细节信息。网络结构如图3所示,最终通道注意力特征为

经过多尺度通道注意力特征得到的特征图进行空间注意力的特征提取为

2.1.3 多尺度注意力融合

在CNN中不同的卷积层包含着不同的信息。中如,在较低的卷积层含有基础的颜色、边际信息,同时在较高的层编码有抽象和语义线索,因此融合不同层的信息可以生成更好的特征。本文采用高层注意力特征权重来辅助低层注意力特征的生成。两层特征图的注意力融合方式为

其中,ÎR×H×为融合后的特征;为低层特征图;为高层卷积得到的特征图;为注意力机制模块具体的连接方式(图4)。

图4 多尺度注意力特征图融合(MS-AFM)

Fig. 4 Multi-scale attentional feature fusion module

如图4所示,4个模块中通过3×3卷积捕获到不同感受野大小的信息,经过上述注意力模块得到的特征图通过下采样固定到相同的尺寸,在通道维度进行连接后,得到多尺度注意力融合最终的特征图。

2.2 抗噪声的自适应损失函数

如图1所示,不同精度设备采集的数据集在质量上差别巨大。为了避免模型将噪声当作要学习的特征,本文构建了一个抗噪声的自适应损失函数。

许多人脸识别损失函数的研究是交叉熵Softmax损失函数的变例,对于一张人脸图像通过网络提取其特征向量ÎR,其类别用y表示,则对于的分类概率为

交叉熵损失函数为

对于所有样本的损失函数为

其中,为样本总数;为正例样本个数;为负例样本个数;=+。

为了便于表示,样本正确分类的概率用p代替,即

则交叉熵损失函数为

图5损失函数

3 数据预处理

通过消费级3D摄像机采集的点云人脸数据往往存在着大量的噪声,并且图像大小不适用于直接用来做人脸识别。例如,通过Kinect采集的Lock3DFace数据集包含了点云人脸数据集和相对应的关键点的坐标信息。在进行点云人脸识别网络训练和测试之前,需要先对点云人脸数据进行插值、鼻尖校准。为了输入到深度卷积神经网络中,也需要将图像进行归一化。此外,由于点云人脸数据集较少,对数据集的增强往往是点云人脸识别的必要工作。

(1) 插值。为了提高低质量深度图像中人脸的占比,提升分辨率,与文献[11]类似,使用Lock3DFace中提供的坐标值,将人脸从原始深度帧(512, 424)中裁剪出180×180的人脸,并将其线性插值到360×360。

(2) 鼻尖校准。为了切除非面部区域,使用数据集提供的鼻尖坐标(,),在其周围定位出一个5×5的区域,并使用其中值而不是平均值作为修改的基准点来切除非面部区域,避免大量孔洞噪声的影响。

(3) 人脸投影。为了使点云人脸图像能够适用基于2D图像训练的CNN,按照Led3D中提供的方法将3D点云投影到2D空间中并将深度人脸填充到固定大小,最终将深度人脸图像归一化到[0,255]的范围内。

(4) 数据增强。为了提高点云人脸数据集的规模,使用姿势生成、形状缩放来进行图像增强。姿势生成,即在本项工作中对点云人脸图像项进行左右旋转角度[–600,600]和俯仰角度[–400,400],每隔200生成新的人脸图像;形状缩放,即为了模拟因为人脸与相机距离不同而导致的人脸在图像中分辨率的变化,将二值化后的人脸图像放大1.15倍和1.35倍。

4 实验结果与分析

4.1 数据集

本文实验共使用了3个数据集,分别是Lock3DFace,Bosphorus和KinectFaces。其中Lock3DFace是当前低质量点云人脸识别领域的主要数据集,用来测试和微调网络模型。KinectFaces是本文为了弥补低质量人脸数据集的匮乏而建设的一个3D点云人脸识别数据集,用来测试验证网络模型的泛化能力。高精度的Bosphorus数据集仅用来进行网络模型的初步训练[29]。

(1) Lock3DFace[9]。该数据集是当前最大的低质量点云人脸公开数据集,使用Kinect V2进行拍摄。其中包含509人的5 671个视频序列,有自然状态(NU)、表情变化(FE)、遮挡(OC)、姿势(PS)和时间变化(TM) 5个类别。其中,时间变化是指在2个相隔半年拍摄的数据集类别。

(2) Bosphorus[7]。该数据集是采用高精度3D传感器拍摄的点云人脸数据集。其中,包含105个人的4 666张3D人脸图像,包含表情变化、遮挡和姿势变化3个类别。

(3) KinctFaces。该数据集是本文建设的一个包含60人的低质量点云人脸数据集。使用Kinect V3设备进行拍摄,同步保存深度图像和相应的关键点坐标信息,包含自然状态、表情变化、姿势变化、光噪声4个类别,其中针对光的折射对戴眼镜个体的数据采集有较大影响的问题,本数据集首次将戴眼睛群体的数据归类为光噪声类别,如图1中第3行所示。此外,该数据集包含4个类别的9 600张人脸图像,因为在大学校园中进行拍摄,所拍摄对象年龄集中在20~25岁之间。

4.2 实验设置

本文实验平台Tesla V100。软件环境为:Ubuntu18.04,mxnet-cu101。权重衰减设置为0.000 5。学习率为0.01,Batch Size为300。输入数据调整到128×128进行训练。

4.2.1 测试方法

Led3D是Lock3DFace数据集中准确率最高的网络模型,为了实验的公平,采用Led3D中的测试方法作为标准。具体来说,将Bosphorus中提供的数据集进行第一步训练,使用Lock3DFace中的数据集进行微调。在Lock3DFace数据集中随机选择509个个体中340个类别的全部数据用于训练,其中采集每个视频前6帧用于训练,其余的169个类别作为测试数据。此外,在340个个体的自然状态人脸中每个视频选择6张图片进行数据增强。在测试集中选择每个个体的自然状态人脸一张图片作为gallery,其余所有图片作为probe。计算rank-one测试结果进行统计。

4.2.2 参数讨论

表1 不同超参数对结果的影响(%)

4.2.3 消融实验

为研究本文算法对各个模块产生的性能增益,逐步添加多尺度注意力融合模块、抗噪声的自适应损失函数,且分别评估算法在低质量Lock3DFace数据集上的性能指标,为保证实验的公平性实验中所有的参数设置都相同,Anti-noise Adaptive Loss的超参数设置为=1。实验结果见表2,每个模块对模型性能的提升均有不同程度的贡献,其中多尺度注意力融合模块贡献最大,提升近5%的性能增益,主要得益于其能迫使模型学习到局部注意力信息。之后通过增加抗噪声的自适应损失函数,使模型性能得到提高,最终结合所有的模块,本文方法达到了较好的性能,平均rank-one可以达到49.53%。

为了验证多尺特征融合模块中不同分支设置的影响,本文设置了不同的消融模块,如图6所示。

表2 每种改进策略产生的性能增益对比(%)

图6 不同结构的通道注意力融合机制

表3实验验证了采用全局最大池化和最大池化的注意力结构在除了时间类别的多个类别中均取得了最好的识别效果,以及全局注意力信息和局部注意力信息相结合的方式,在点云人脸识别任务中可以更好地提取语义信息。

表3 注意力模块设计的消融实验(%)

注:加粗数据为最优值

为了验证本文MS-AFM (multi-scale attention feature module)模块的优越性,将多种注意力机制嵌入到其中进行了对比。因为AFF[30]和SENet中没有空间注意力机制,而且空间注意力机制不是本文的主要工作,为保证实验的公平性,空间注意力机制不参与实验的比较,其他参数设置也完全和MS-AFM相同。实验结果见表4,本文所提出的MS-AFM模块在所有类别中均领先于其他模型。

表4 不同注意力机制对准确率的影响(%)

注:加粗数据为最优值

由表4可得,本文所提出的注意力机制在点云人脸识别任务中超越了大多数注意力机制。相较于AFF,本文模块虽然在时间变化类别上略低,但在其他类别上可大幅超过,平均识别精度可以高出2.39%。AFF的通道注意力采用了局部注意力和全局注意力结合的方法和本文方法思想类似,验证了局部注意力在人脸识别任务中的重要性。

在Lock3DFace数据集上任意抽取10个人的20张图像,使用表4中3个不同注意力机制提取人脸特征,并将得到的特征使用t-SNE算法进行可视化,得到结果如图7所示。经过对比可以发现,本文方法得到的特征向量更加的紧凑且具可分离性,验证了MS-AFM模块的有效性。

4.2.4 多模型测试结果对比

为了验证本文方法的有效性,首先与文献[11]的Led3D算法和其所选用方法进行对比。本文所使用的实验方法为4.2.1节中所示。试验结果见表5,本文模型性能在所有子集上超越了大多数先进算法,并优于当下最先进的低质量3D图像人脸识别网络Led3D。在表情和姿势2个子集中有较大地提升,验证了模型在应对复杂数据时的鲁棒性。实验统计方法与4.2.1中相同,没有剔除任何数据。

图7 不同结构的通道注意力融合机制特征生成图((a)MS-AFM模块得到的特征图;(b)使用MS-SENet得到的特征图;(c)使用MS-AFF得到的特征图)

表5 不同方法在Lock3DFace上的准确率(%)

注:加粗数据为最优值

为了验证本文方法的鲁棒性和有效性,给预处理后的Lock3Dface测试集的正面子集图像上分别添加了10%,20%,30%和40%的椒盐噪声。经过处理后的人脸图像如图8所示,与不同模型的对比实验结果如图9所示。

图8 可视化的混合椒盐噪声人脸深度图像

图9 添加椒盐噪声的实验结果

从图9可以看出,在噪声强度不断增大的情况下,本文方法相比其他方法,识别性能更加稳定,且识别准确率优于其他方法。验证了本文方法在特征提取过程中对噪声的鲁棒性,此外通过多尺度注意力融合模块提取到了更多的判别性特征,从而提高模型别率。

4.2.5 泛化性实验和数据增强

本实验通过4.2.1中介绍的方法训练模型,添加了数据增强的训练数据集。在KinectFaces数据集上进行测试,来验证本文模型的泛化能力和数据增强的效果。

从表6中可以看出使用数据增强技术虽然在个别类别上模型准确率有所下降,但在大部分类别上对模型识别准确率都有不小地提升,说明了当前低质量点云人脸识别领域数据集规模仍然是制约模型识别精度提升的主要因素。此外,本文方法在KinectFaces数据集上的识别准确率远高于其他算法,表现出了模型较好的泛化性和较高识别准确率。

表6 在KinectFaces数据集上的rank-one测试(%)

注:加粗数据为最优值

5 结 论

本文算法在低质量点云人脸数据集上表现出相对较好的识别能力,并具有不错的泛化性,通过实验结果分析可以看出点云人脸识别算法所提出的多尺度注意力融合模块可以加强对图片中人脸信息的关注,获得含有强有力判别性的特征,且本文提出的抗噪声的自适应损失函数也适用于含有大量噪声的点云数据集。但本文也存在一定的局限性,低质量点云人脸数据集数量较少,数据集规模将对最终实验结果有着较大影响,但本文所使用的数据增强方法并不能大幅度提升数据集数量,因此对于数据增强方法还有较大改进的空间。另一方面,抗噪声的自适应损失函数存在2个超参数,超参数的需要根据数据集的噪声程度进行设置,但目前对于噪声的评估并没有具体可以量化的公式进行计算。

(感谢:北京航空航天大学IRIP实验室提供的数据集的支持。本代码将在https://github.com/Shel dongg/3dfacems-afm进行共享。)

[1] 侯守明, 杜成菲, 王阳, 等. 基于Kinect的拉普拉斯网格形变三维人脸建模[J]. 图学学报, 2018, 39(5): 970-975.

HOU S M, DU C F, WANG Y, et al. Laplace’s grid deformation 3D face modeling based on kinect[J]. Journal of Graphics, 2018, 39(5): 970-975 (in Chinese).

[2] TOLOSANA R, VERA-RODRIGUEZ R, FIERREZ J, et al. Deepfakes and beyond: a survey of face manipulation and fake detection[J]. Information Fusion, 2020, 64: 131-148.

[3] HUANG D, ARDABILIAN M, WANG Y H, et al. 3-D face recognition using eLBP-based facial description and local feature hybrid matching[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(5): 1551-1565.

[4] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 815-823.

[5] KARAM L J, ZHU T. Quality labeled faces in the wild (QLFW): a database for studying face recognition in real-world environments[C]//Proc SPIE 9394, Human Vision and Electronic Imaging XX, Bellingham:Society of Photo-Optical Instrumentation Engineers, 2015:93940B.

[6] PHILLIPS P J, FLYNN P J, SCRUGGS T, et al. Overview of the face recognition grand challenge[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2005: 947-954.

[7] SAVRAN A, ALYÜZ N, DIBEKLIOĞLU H, et al. Bosphorus database for 3D face analysis[M]//Lecture Notes in Computer Science. Berlin: Springer, 2008: 47-56.

[8] YIN L J, WEI X Z, SUN Y, et al. A 3D facial expression database for facial behavior research[C]//The 7th International Conference on Automatic Face and Gesture Recognition. New York: IEEE Press, 2006: 211-216.

[9] ZHANG J J, HUANG D, WANG Y H, et al. Lock3DFace: a large-scale database of low-cost Kinect 3D faces[C]//2016 International Conference on Biometrics. New York: IEEE Press, 2016: 1-8.

[10] ZHU Z, HUANG G, DENG J K, et al. WebFace260M: a benchmark unveiling the power of million-scale deep face recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 10487-10497.

[11] MU G D, HUANG D, HU G S, et al. Led3D: a lightweight and efficient deep approach to recognizing low-quality 3D faces[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5766-5775.

[12] KIM D, HERNANDEZ M, CHOI J, et al. Deep 3D face identification[C]//2017 IEEE International Joint Conference on Biometrics. New York: ACM Press, 2017: 133-142.

[13] BHOPLE A R, SHRIVASTAVA A M, PRAKASH S. Point cloud based deep convolutional neural network for 3D face recognition[J].Multimedia Tools and Applications, 2021, 80(20): 30237-30259.

[14] CHARLES R Q, HAO S, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 77-85.

[15] LI B, XI T, ZHANG G, et al. Dynamic class queue for large scale face recognition In the wild[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 3762-3771.

[16] FAN D P, WANG W G, CHENG M M, et al. Shifting more attention to video salient object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 8546-8556.

[17] FU K R, FAN D P, JI G P, et al. JL-DCF: joint learning and densely-cooperative fusion framework for RGB-D salient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3049-3059.

[18] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[BE/OL]. [2022-06-11]. https://proceedings.neurips. cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf.

[19] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3141-3149.

[20] WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7794-7803.

[21] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.

[22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

[23] 王江安, 庞大为, 黄乐, 等. 基于多尺度特征递归卷积的稠密点云重建网络[J]. 图学学报, 2022, 43(5): 875-883.

WANG J A, PANG D W, HUANG L, et al. Dense point cloud reconstruction network using multi-scale feature recursive convolution[J]. Journal of Graphics, 2022, 43(5): 875-883 (in Chinese).

[24] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2022-05-10]. https://arxiv.org/abs/1409.1556.

[25] WEN Y D, ZHANG K P, LI Z F, et al. A discriminative feature learning approach for deep face recognition[M]//Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 499-515.

[26] LIU W Y, WEN Y D, YU Z D, et al. Large-margin softmax loss for convolutional neural networks[EB/OL]. [2022-06-09]. https://arxiv.org/abs/1612.02295.

[27] LIU W Y, WEN Y D, YU Z D, et al. SphereFace: deep hypersphere embedding for face recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6738-6746.

[28] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2999-3007.

[29] 龚勋, 周炀. 面向低质量数据的3D人脸识别[J]. 电子科技大学学报, 2021, 50(1): 43-51.

GONG X, ZHOU Y. 3D face recognition for low quality data[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(1): 43-51 (in Chinese).

[30] DAI Y M, GIESEKE F, OEHMCKE S, et al. Attentional feature fusion[C]//2021 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2021: 3559-3568.

Multi-scale attention fusion and anti-noise lightweight 3D point cloud face recognition model

GUO Wen1, LI Dong1, YUAN Fei2

(1. School of Information and Electronic Engineering, Shandong Technology and Business University, Yantai Shandong 264005, China; 2. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100195, China)

The key to achieving point cloud face recognition is discriminative feature extraction and noise robustness for low quality data. To address the problems that the existing lightweight point cloud face recognition algorithms cannot adequately extract discriminative features and that the large amount of noise in the dataset affects model training, we designed a lightweight and efficient network model and proposed a point cloud face recognition algorithm based on multi-scale attention fusion and noise-resistant adaptive loss function. Firstly, the features of receptive fields of different sizes were generalized. Then, the multi-scale attention features were extracted, and high-level attention weights were utilized to guide the generation of low-level attention weights. Finally, channel fusion was performed to obtain multi-scale fusion features, which improved the model’s ability to capture face details. Meanwhile, according to the noise information characteristics of low-quality point cloud face images, a novel anti-noise adaptive loss function was designed to deal with the possible negative impact of the large amount of noise in the dataset on the model training process, thus enhancing the robustness and generalization ability of the model. Experiments on open-source datasets such as Lock3Dface and KinectFaces show that the proposed method yields better performance on low-quality 3D face recognition accuracy.

point loud face recognition; attention feature fusion; attention feature extraction; loss function

TP 391

10.11996/JG.j.2095-302X.2022061124

A

2095-302X(2022)06-1124-10

2022-07-17;

:2022-10-05

国家自然科学基金项目(62072286,61876100,61572296);山东省研究生教育创新计划(SDYAL21211);山东省高等学校青创科技支持计划(2019KJN041);国家重点研发计划(2020YFC0832503)

郭 文(1978-),男,教授,博士。主要研究方向为计算机视觉与多媒体计算。E-mail:wguo@sdtbu.edu.cn

17 July,2022;

5 October,2022

National Natural Science Foundation of China (62072286, 61876100, 61572296); Shandong Province Postgraduate Education Innovation Program (SDYAL21211); Shandong Higher Education Youth Innovation and Technology Support Program (2019KJN041); National Key Research and Development Program of China (2020YFC0832503)

GUO Wen (1978-), professor, Ph.D. His main research interests cover computer vision and multimedia computing. E-mail:wguo@sdtbu.edu.cn

猜你喜欢
人脸人脸识别注意力
人脸识别 等
让注意力“飞”回来
有特点的人脸
一起学画人脸
揭开人脸识别的神秘面纱
如何培养一年级学生的注意力
人脸识别技术的基本原理与应用
三国漫——人脸解锁
人脸识别在高校安全防范中的应用
A Beautiful Way Of Looking At Things