基于GAN的无监督域自适应行人重识别

2021-03-11 07:38郑声晟殷海兵黄晓峰章天杰
电信科学 2021年2期
关键词:行人姿势标签

郑声晟,殷海兵,黄晓峰,章天杰

研究与开发

基于GAN的无监督域自适应行人重识别

郑声晟,殷海兵,黄晓峰,章天杰

(杭州电子科技大学通信工程学院,浙江 杭州 310018)

针对无监督域自适应行人重识别中存在的聚类不准确导致网络识别准确率低的问题,提出一种基于生成对抗网络的无监督域自适应行人重识别方法。首先通过在池化层后使用批量归一化层、删除一层全连接层和使用Adam优化器等方法优化CNN模型;然后基于最小错误率贝叶斯决策理论分析聚类错误率和选择聚类关键参数;最后利用生成对抗网络调整聚类,有效提升了无监督域自适应行人重识别的识别准确率。在源域Market-1501和目标域DukeMTMC-reID下进行实验,mAP和Rank-1分别达到了53.7%和71.6%。

无监督域自适应;行人重识别;生成对抗网络

1 引言

随着城市人口的不断增长和视频监控系统的大量普及,社会公共安全问题越来越受到人们的重视。为了增强摄像头网络的安防水平,行人重识别(person re-identification,reID)技术得到了广泛关注。行人重识别,也称行人再识别,被视为图像检索问题的一个分支,其目的在于利用计算机技术在一些大型区域内从非重叠多个摄像头中检索特定行人图片[1-4]。行人重识别技术有效地解决了人工检索的低效性问题,具有巨大的应用价值和发展前景。目前的行人重识别技术在智能安防领域、无人超市、智能机器人等领域有广泛的实际应用。但同时行人重识别也面临着许多困难,诸如服装、光照、姿势变换、遮挡物、摄像头视角转换和分辨率低等。

传统的行人重识别主要通过基于特定场景下大量带标签的视频图像数据训练出一个稳定可靠的模型[1-4]。但是这类监督学习方法忽略了在实际应用中系统对新场景的适应性,并且依赖大量带标签的行人数据,而标注工作往往需要耗费大量的人力和物力,不利于系统的部署。在许多实际情况下,面临的问题是训练数据和测试数据来自于不同的领域。无监督域自适应指将给定标注的源数据集上学习好的模型应用在未标注的目标数据集上,比如将在给定的数据集上训练好的模型投入机场、火车站、汽车站等公共场所中使用,可省去在新场景下行人数据采集标注和模型训练的时间与精力,极具有实用性。

生成对抗网络(generative adversarial network,GAN)自2014年被提出以来发展迅速,极大地推动了行人重识别技术的发展[5-8]。众所周知,行人重识别数据集构建需要消耗大量的时间和精力,但生成对抗网络可以通过生成图片解决数据集内每类样本数量较少的问题,从而有效弥补了这一缺陷。目前的生成对抗网络在行人重识别方面的作用主要是为传统的行人重识别技术扩充其训练所需的数据集,而本文提出了利用生成对抗网络调整无监督域自适应行人重识别自训练框架中的聚类,有效地提高了识别准确率。

2 相关工作

2.1 无监督域自适应的行人重识别

早期的reID学者尝试寻找在域之间共享的潜在特征空间来解决在目标域上适应的问题。Pan等[9]和Chen等[10]尝试着找到一个特征空间,在特征空间中源域和目标域的分布是相似的,并且采用了统计最大平均差(maximum mean discrepancy,MMD),为无监督域自适应reID发展奠定了基础。

目前为了解决reID域自适应问题,学者提出了很多方法。Nigam等[11]提出了自训练框架,指在目标域上进行迭代猜测,并且与期望最大化(expectation maximization,EM)算法密切相关,该自训练框架的提出有效地提高了reID的性能,具有划时代的意义。Deng等[12]和Wei等[13]将生成模型应用于域自适应中。Wang等[14]设计了一个学习属性语义和身份识别特征表示的网络。Li等[15]利用数据集之间的信息,并通过域自适应和reID网络得出域不变的特征。Song等[16]首先在源域上训练模型,然后对目标域数据执行聚类适应模型,该聚类再训练的方法较为新颖,但是仍存在诸如聚类准确性不高等问题。

本文基于Song等[16]的自训练框架进行优化,自训练框架如图1所示。在该框架中,首先利用在源域上训练好的CNN模型提取无标签目标数据集的特征获得矩阵T,接着通过距离度量获得源域数据集与目标数据集之间的距离矩阵ST,然后采用DBSCAN聚类算法对其进行聚类,以赋予无标签目标数据集标签数据。

其中,τ为半径,其取值为MST内前P%元素的平均值,Song等[16]通过实验获得最佳P值为1.610−3,n为密度阈值。最后将聚类的结果作为目标数据集的标签来训练CNN模型,实现无监督域自适应达到reID较高的mAP和Rank-1。

2.2 生成对抗网络

Goodfellow等[4]在2014年提出GAN,采用对抗策略训练模型。GAN由生成器和判别器组成,训练时极小化生成器损失,极大化判别器损失,交替进行训练,这样就形成了互相博弈对抗的过程。Ma等[17]首次解决人体姿势转换问题,根据给定的参考图像,以目标姿势生成人体图像。根据18个关键点组成18通道的关键点热图,然后将其与参考图像连接起来,并输入CNN中进行对抗训练。

目前GAN在行人重识别方面的作用主要是为传统的行人重识别技术扩充其训练所需的源域数据集,通过生成图片解决数据集内每类样本数量较少的问题。而本文提出一种GAN在无监督域自适应reID上应用的新思路,在图1的自训练框架中使用GAN,而非直接扩充源域训练所需的数据集。创新步骤体现在以下两点:第一步进行聚类分析,基于最小错误率贝叶斯决策理论来分析聚类错误率和选择聚类关键参数;第二步利用GAN调整聚类,首先根据目标域数据集聚类结果训练GAN,然后通过GAN生成不同姿势的行人图片来调整目标域数据集聚类,最后按照调整后的聚类结果标签数据训练CNN,从而提高无监督域自适应reID的性能,整体优化流程如图2所示。

3 优化方法

3.1 CNN优化

本文在CNN优化部分基于Xiong等[18]的方法。第一步优化是在池化(pooling)层之后直接使用批量归一化(batch normalization,BN)层,BN层可以提供更稳定的梯度,实现更快的收敛速度和更好的性能。第二步优化是删除一层全连接(fully connected,FC)层,以减少对最终效果的影响。第一步优化是使用Adam优化器代替SGD优化器,防止过拟合。CNN模型优化如图3所示。

3.2 聚类分析及参数选择

由上文可知,聚类结果的好坏会直接影响最后的自训练结果,而参数值的选择又是影响聚类的关键之一。Song等[16]没有解释如何有效地选择值,同时由于已对CNN优化,当前的值未必是最佳的值,因此本文提出一种基于最小错误率贝叶斯决策的理论分析,以找到聚类错误率最低的值。

图2 优化流程

图3 CNN模型优化

因此对于源类ci,判定有nimax张图片为聚类准确,把这nimax张图片所在的类认为是源类ci的对应正确类,称之为目标类Ci,该类包含的所有图片数量为。而其他没有被聚到目标类Ci的源类ci图片被聚到其他ID的目标类Cj中,共有ei张,。其中,eij是源类ci的图片被聚到其他ID的目标类Cj中的图片数量。所以,源类ci的图片样本数量,其组成如图4所示。目标类Ci不仅包含源类ci的部分图片,可能还包含其他目标类cj的图片,共有Ei张,其中。其中,eji为源类cj的图片被聚到目标类Ci的数量。所以目标类Ci的图片样本数量,其组成如图5所示。

图5 目标类Ci的图片样本数量组成

获得每个ID的聚类错误概率后,可求出在该值下的错误聚类概率密度函数。其中,由于每个ID的行人图片数量都不相同,所以求和时要考虑各个ID图片数量在总图片数量的权重。因此在某个值下,两种错误聚类概率密度函数和合计错误概率分别为:

3.3 基于GAN的聚类调整

该自训练框架中存在的不足就是在聚类时由于行人姿势不同,常常将同一ID的行人图片错分为多个类。如图6所示,类1和类2中的行人图片均属于目标域数据集中的同一ID,却没有被聚到一起。如果能将同一ID不同姿势的图片聚在一起,那么reID的性能将会得到提升。因此本文提出一种利用GAN调整聚类的方法,其流程图如图7所示,算法流程如算法1所示。

图6 聚类错误

算法1 基于GAN的无监督域自适应行人重识别算法

输入源域数据集,目标域数据集,半径,密度阈值

输出对于目标域的特征提取器

在源域上训练特征提取器;

对目标域进行特征提取,计算距离矩阵1;

聚类获得标签数据1= DBSCAN(1,,);

根据标签数据训练GAN;

利用GAN生成相应的规范姿势图片;

对目标域和生成图片进行特征提取,计算距离矩阵2;

聚类获得标签数据2= DBSCAN(2,,);

针对2聚类结果进行类别调整;

针对2中任意两个类A、B:

if A中存在由B生成的图片 then 合并AB;

else if B中存在由A生成的图片 then 合并AB;

根据调整后的标签数据训练特征提取器;

因为在无监督域自适应reID中不能使用目标域数据集的真实标签信息,所以从自训练中获取聚类结果,对每一个类给定相应的伪标签作为该类的ID,而不是直接使用真实的行人ID,利用伪标签训练GAN。

训练好GAN后选定一组规范姿势,可选取前后左右4个方向差异较大的姿势作为规范姿势。将目标域的每张图片根据这组规范姿势通过GAN生成其相应的姿势图片,生成图片可以按原目标域图片名称加上姿势名称命名,方便后面调整聚类寻找。由生成姿势图片和目标域图片合成新的数据集,称之为混合数据集,将其放入DBSCAN聚类中。得到混合数据集聚类结果后进行调整,生成的姿势图片的作用是调整的依据。对于两类A和B,首先在A中寻找是否存在由B中原目标域图片生成的姿势图片,寻找方式可由图片名称寻找,判断A中生成图片名称所包含的原目标域图片是否存在B中,若存在则直接合并A和B;若不存在则在B中寻找是否存在由A中原目标域图片生成的姿势图片,若存在则合并A和B;若不存在则不合并,继续寻找下两个类。调整好聚类后将目标域数据集按照调整后的标签进行训练。

图7 基于GAN的聚类调整算法流程

4 实验与分析

4.1 数据集准备

实验使用数据集为Market-1501和DukeMTMC-reID,见表1。Market-1501数据集是清华大学于2015年公开的数据集,共有6个摄像头、1 501个行人和32 668个已标注的行人矩形框。其中训练集采集了751人的数据,共12 936张图像;测试集采集了750人的数据,共19 732张图像。DukeMTMC-reID数据集是杜克大学于2016年公开的数据集,共有8个摄像头、1 404个行人和36 411个已标注的行人矩形框。其中训练集采集了702人的数据,共16 522张图像;测试集采集了702人的数据,共19 889张图像。

表1 数据集细节

4.2 CNN优化及参数分析选择

图8 两种错误概率密度

图9 合计错误概率密度

根据实验结果可以看出取1.5×10−3时合计错误概率最低,同时标记对应的半径值0,以便后面使用。同时获取了对应的值下Market- 1501→DukeMTMC-reID的自训练结果,见表2。可见在=1.5×10−3时Market-1501→ DukeMTMC- reID的mAP、Rank-1、Rank-5和Rank-10最好,分别为52.2%、70.2%、81.8%和85.5%,与合计错概率结果吻合。

4.3 基于GAN的聚类调整

在将混合数据集放入自训练聚类中时使用第4.2节中提到的半径值0,以减少生成姿势图片对目标域图片的聚类影响。通过调整聚类有效解决了图6的情况,将目标域DukeMTMCT-reID的聚类类数从852个减少到736个,同时其自训练结果mAP、Rank-1、Rank-5和Rank-10分别在第4.2节的基础上提升了1.5%、1.4%、1.5%和2.7%。表3为各个无监督域自适应reID方法在Market- 1501→DukeMTMC-reID的比较。实验表明通过优化CNN模型、聚类错误分析和参数选择可使reID性能显著提升;通过调整聚类可改善由于姿势不同导致的聚类错误问题,从而进一步提升reID性能。

表2 不同P值Market-1501→DukeMTMC-reID比较

表3 无监督域自适应reID方法Market-1501→DukeMTMC-reID比较

5 结束语

本文提出一种基于生成对抗网络的无监督域自适应行人重识别方法,为生成对抗网络在无监督域自适应行人重识别上的应用提供了新思路,有效提升了无监督域自适应行人重识别的识别准确率。该方法主要注重行人姿势问题,将有助于促进行人重识别在实际场景的应用。但是行人重识别还存在着行人换衣、步态等难点亟待解决,相信随着对抗生成网络和其他科学技术的发展,越来越多的学者将在这些方向上开展更深的研究。

[1]ZHENG L, YANG Y, HAUPTMANN A G, et al. Person re-identification: past, present and future[J]. arXiv: 1610. 02984, 2016.

[2]王志宏, 杨震. 人工智能技术研究及未来智能化信息服务体系的思考[J]. 电信科学, 2017, 33(5): 1-11.

WANG Z H, YANG Z. Research on artificial intelligence technology and the future intelligent information service architecture[J]. Telecommunications Science, 2017, 33(5): 1-11.

[3]杨锋, 许玉, 尹梦晓, 等. 基于深度学习的行人重识别综述[J]. 计算机应用, 2020, 40(5): 1243-1252.

YANG F, XU Y, YIN M X, et al. Review on deep learning-based pedestrian re-identification[J]. Journal of Computer Applications, 2020, 40(5): 1243-1252.

[4]罗浩. 深度学习时代的行人重识别技术[J]. 人工智能, 2019(2): 40-49.

LUO H. Person re-identification technology in the era of deep learning[J]. Artificial Intelligence, 2019(2): 40-49.

[5]GOODFELLOW I, POUGETABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems-Volume 2. New York: ACM Press, 2014: 2672-2680.

[6]贾川民, 赵政辉, 王苫社. 基于神经网络的图像视频编码[J]. 电信科学, 2019, 35(5): 32-42.

JIA C M, ZHAO Z H, WANG S S. Neural network based image and video coding technologies[J]. Telecommunications Science, 2019, 35(5): 32-42.

[7]王万良, 李卓蓉. 生成式对抗网络研究进展[J]. 通信学报, 2018, 39(2): 135-148.

WANG W L, LI Z R. Advances in generative adversarial network[J]. Journal on Communications, 2018, 39(2): 135-148.

[8]陈亮, 吴攀, 刘韵婷, 等. 生成对抗网络GAN的发展与最新应用[J]. 电子测量与仪器学报, 2020, 34(6): 70-78.

CHEN L, WU P, LIU Y T, et al. Development and application of the latest generation against the network of GAN[J]. Journal of Electronic Measurement and Instrumentation, 2020, 34(6): 70-78.

[9]PAN S J, TSANG I W, KWOK J T, et al. Domain adaptation via transfer component analysis[J]. IEEE Transactions on Neural Networks, 2011, 22(2): 199-210.

[10]CHEN B, LAM W, TSANG I W, et al. Extracting discriminative concepts for domain adaptation in text mining[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2009: 179-188.

[11]Nigam K, Mccallum A, Mitchell T. Semi-supervised text classification using EM[M]//Semi-supervised learning. Cambridge: MIT Press, 2006: 33-38

[12]DENG W, ZHENG L, YE Q, et al. Image-image domain adaptation with preserved self-similarity and domain-dissimilarity for person re-identification[J]. arXiv: 1711. 07027, 2018.

[13]WEI L, ZHANG S, GAO W, et al. Person transfer GAN to bridge domain gap for person re-identification[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 79-88.

[14]WANG J, ZHU X, GONG S, et al. Transferable joint attribute-identity deep learning for unsupervised person re-identification[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 2275-2284.

[15]LI Y, YANG F, LIU Y, et al. Adaptation and re-identification network: an unsupervised deep transfer learning approach to person re-identification[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 172-178.

[16]SONG L, WANG C, ZHANG L, et al. Unsupervised domain adaptive re-identification: theory and practice[J]. arXiv: 1807. 11334, 2018.

[17]MA L, JIA X, SUN Q, et al. Pose guided person image generation[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 406-416.

[18]XIONG F, XIAO Y, CAO Z, et al. Towards good practices on building effective CNN baseline model for person re-identification[J]. arXiv: 1807.11042, 2018.

GAN-based unsupervised domain adaptive person re-identification

ZHENG Shengsheng, YIN Haibing, HUANG Xiaofeng, ZHANG Tianjie

College of Communication Engineering, Hangzhou Dianzi University, Hangzhou 310018, China

Aiming at the problem that the inaccurate clustering in the unsupervised domain adaptive pedestrian re-recognition results in low network recognition accuracy, an unsupervised domain adaptive pedestrian re-recognition method based on generative confrontation network was proposed. Firstly, the CNN model was optimized by using the batch normalization layer after the pooling layer, deleting a fully connected layer and adopting the Adam optimizer. Secondly, the cluster error was analyzed and the important parameter in the cluster was decided based on minimum error rate Bayesian decision theory. Finally, the generative adversarial network was utilized to adjust the cluster. These steps effectively improved the recognition accuracy of unsupervised domain adaptive person re-identification. In the case of the source domain Market-1501 and the target domain DukeMTMC-reID, experimental results show that mAP and Rank-1 can reach 53.7% and 71.6%, respectively.

unsupervised domain adaptive, person re-identification, generative adversarial network

TP391

A

10.11959/j.issn.1000−0801.2021016

2020−07−19;

2020−09−02

郑声晟(1996− ),男,杭州电子科技大学通信工程学院硕士生,主要研究方向为行人重识别。

殷海兵(1974− ),男,博士,杭州电子科技大学通信工程学院教授,主要研究方向为数字视频编解码、多媒体信号处理、芯片结构设计验证。

黄晓峰(1988− ),男,博士,杭州电子科技大学通信工程学院讲师,主要研究方向为数字视频编解码与芯片架构设计。

章天杰(2000− ),男,杭州电子科技大学通信工程学院在读,主要研究方向为行人重识别。

猜你喜欢
行人姿势标签
毒舌出没,行人避让
倒挂在树上,我的主要姿势
看书的姿势
路不为寻找者而设
解锁咳嗽的正确姿势
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
我是行人
曝光闯红灯行人值得借鉴
标签化伤害了谁