虹膜呈现攻击检测综述

2024-03-04 02:04王财勇刘星雨房美玲赵光哲何召锋孙哲南
自动化学报 2024年2期
关键词:虹膜纹理特征

王财勇 刘星雨 房美玲 赵光哲 何召锋 孙哲南

自从1993 年英国剑桥大学Daugman 博士首次提出实用的高性能虹膜识别系统[1]以来,虹膜识别技术得到了广泛关注和迅猛发展.虹膜作为身份标识具有诸多先天优势,如唯一性、稳定性、非接触性、防伪性等,因此长期以来虹膜识别被人们视为一种安全、可靠的生物特征识别技术[2-3],广泛应用于国家公共安全、公共卫生、边检安防、司法、商业等重要场景中.特别是近些年来,随着物联网、互联网、人工智能、元宇宙等技术的发展,一大批基于笔记本电脑、手机、VR/AR 设备等的终端产品丰富了虹膜识别的应用场景.然而随着应用的不断深入,人们发现虹膜识别技术并非百分之百安全,它的不同阶段仍然可能遭受各种类型的攻击干扰,造成识别系统存在安全漏洞和风险隐患.在不同的攻击类型中,虹膜呈现攻击(Presentation attacks,PAs)是最常见的,出现在早期的虹膜图像获取阶段,它通过诱导传感器捕获假体虹膜样本作为待识别的虹膜图像,干扰识别系统的正常运行,导致系统做出错误的决策.截止目前,网络媒体上关于虹膜呈现攻击的报道屡见不鲜.例如,2017 年,欧洲最大黑客协会Chaos Computer Club 针对三星Galaxy S8 手机进行了一项测试,他们通过将透明隐形眼镜覆盖在打印虹膜图像上(该隐形眼镜用于模拟眼球的曲率),成功解锁了手机;同年,百度安全实验室(Baidu X-Lab)利用激光黑白打印机打印出来的高清虹膜照片也解锁了一款具备虹膜识别功能的手机;2018 年,来自波兰华沙工业大学的研究员们将尸体虹膜作为一种呈现攻击类型,指出犯罪分子有可能利用尸体虹膜来绕过虹膜扫描仪以冒充逝者获得访问权.这些报道极大地引发了社会各界对虹膜识别技术安全性的担忧.针对此类问题,虹膜呈现攻击检测(Iris presentation attack detection,IPAD)技术应运而生,它旨在判别输入系统的虹膜图像是来自正常采集的活体虹膜,还是来自某种假体虹膜,以排除假体虹膜对于系统的攻击和阻碍[4-5].常见的虹膜呈现攻击方式包含打印虹膜照片、重播放虹膜样本、3D 虹膜假体(如义眼)和佩戴有纹理的隐形眼镜等.图1 展现了在虹膜识别过程中使用义眼进行虹膜呈现攻击的场景.

图1 使用义眼进行虹膜呈现攻击图示(插图取自电影《辛普森一家》)Fig.1 An illustration of iris presentation attack using artificial eye (the figure is from 《The Simpsons》)

随着获取个体虹膜信息的渠道增多,以及制造假体虹膜的手段不断升级,虹膜呈现攻击给虹膜识别系统带来的隐患与日俱增.从个人角度来看,该攻击行为可能会导致用户的隐私泄露,侵犯用户的合法权益,给正常的生活带来困扰;另一方面,从国家角度来看,亦会影响社会的稳定和谐.相较于其他生物特征识别技术,比如指纹识别和人脸识别,虹膜识别一般应用于安保级别较高的地方,如涉及财物、机密文件、特殊人群的银行、政府、监狱等场所,故虹膜识别的安全性尤其重要.图2 列举了一些虹膜识别及虹膜呈现攻击检测的应用场景.因此,准确判别呈现给虹膜传感器的样本真假,保障虹膜识别技术的安全性是该技术发展中不可忽视的一环.

图2 虹膜识别及虹膜呈现攻击检测的应用场景Fig.2 Application scenarios of iris recognition and iris presentation attack detection

鉴于虹膜呈现攻击检测的重要应用价值,国内外主要的虹膜识别厂商都对此进行了广泛的研究和布局,并将开发的虹膜呈现攻击检测功能集成到各类虹膜识别产品中,如图3 所示.表1 汇总了国内外主要的几家虹膜识别厂商部署的虹膜呈现攻击检测技术,从中可以看到各种基于硬件和基于软件的方法分别被提出,以支持检测美瞳(纹理隐形眼镜)、打印、义眼、屏显、重放攻击等各种攻击类型.进一步地,国内外厂商如中科虹霸、松下电器、IrisGuard等在近些年都申请了与虹膜呈现攻击检测相关的国内外专利.我们通过企知道公司(https://www.qizhidao.com/)开发的专利数据库检索了含有虹膜活体检测、伪造虹膜、美瞳检测等关键词的中国专利,统计了虹膜呈现攻击检测历年的中国专利数量,如图4所示.此外,我们还对专利所属的公司名称根据出现次数进行了词云可视化,如图5 所示.可以看到近些年虹膜呈现攻击检测相关的专利数量正在日益增加,国内外厂商均在中国布局了相关的专利,且值得注意的是,除一些专业的虹膜识别厂商外,一些互联网公司如腾讯、京东、OPPO 等和工商银行都在该领域有所涉猎,反映了虹膜识别广阔的应用前景,更加凸显了虹膜呈现攻击检测在工业上的重要性.

表1 国内外虹膜识别主要厂商部署虹膜呈现攻击检测技术概览Table 1 Overview of IPAD technology deployed by major iris recognition manufacturers at home and abroad

图3 具有虹膜呈现攻击检测功能的虹膜识别产品Fig.3 Iris recognition products with IPAD function

图4 虹膜呈现攻击检测的中国专利数量Fig.4 The number of Chinese patents related to IPAD

图5 申请虹膜呈现攻击检测中国专利的公司名称词云Fig.5 Word cloud of companies applying for Chinese patents related to IPAD

在学术上,虹膜呈现攻击检测也具有重要的研究意义.首先,它可以简单地看作是一个单分类或二分类问题,因此从训练样本使用、虹膜特征表达、分类器选取等方面涉及到了计算机视觉、机器学习、模式识别等领域的共性科学问题;其次,虹膜呈现攻击检测算法本身应该对未知的领域有较好的泛化能力,因此这涉及到域适应、域泛化等问题;此外,虹膜呈现攻击工具也在与时俱进,例如近些年出现的生成对抗网络可以用于合成虹膜等,严重威胁了现有的检测算法.因此,虹膜呈现攻击检测为这些科学领域提供了新的研究课题,有利于启发新的理论创新,促进这些领域的成熟和发展,并吸引了一大批研究人员投入到相关问题的研究中去.国内外研究机构如中国科学院自动化研究所、吉林大学、圣母大学、密歇根州立大学、华沙工业大学、弗劳恩霍夫计算机图形研究所等都有团队从事虹膜呈现攻击检测的研究.生物特征识别领域重要国际期刊会议如IEEE Transactions on Biometrics,Behavior,and Identity Science;IEEE Transactions on Information Forensics and Security;IET Biometrics;IJCB (IEEE International Joint Conference on Biometrics);ICASSP (IEEE International Conference on Acoustics,Speech and Signal Processing)也陆续发表了相关论文[6-10].另外,一系列虹膜呈现攻击检测的比赛也在国际上公开举办[11-15].

针对日益丰富的虹膜呈现攻击检测方法,相关研究者陆续进行了综述.美国圣母大学Bowyer 教授团队首先通过两个维度——虹膜被视为静态还是动态对象和传感器对虹膜是否有刺激,建立了一个分类框架来总结2018 年之前的不同研究成果[16];在此基础上,他们在2020 年进行了延伸,主要介绍了从2018 年到2020 年提出的检测方法,并将方法分类为基于传统计算机视觉、基于深度学习以及将两者结合的方法进行分析[17];Galbally 等[18]和Morales等[19]认为现有方法分为两种,一种是基于硬件的,也称为基于传感器的方法,通过传感器捕获眼睛的生物特征和物理特征检测攻击;另一种是基于软件的,也称为基于特征的方法,根据获得的样本提取纹理信息进行决策.近几年虹膜呈现攻击检测的文献增多,其不仅仅关注检测性能,且开始关注如可解释性[20-22]、公平性[23]等问题.此外,Husseis 等[24]调研了多种生物特征的活体检测方法,孙哲南等[5]报告了生物特征识别近些年的发展现状.由于涵盖的内容较多,他们对虹膜呈现攻击检测只进行了较短的大体介绍.

总的来说,本文一方面吸收了许多现有综述的优秀成果,另一方面也做了多方面的改进与创新:1) 为方便读者从零开始全面地了解虹膜呈现攻击检测问题,本文受Bowyer 教授团队综述[16-17]的启发,更加全面完整地总结了术语、攻击目的、攻击类型、方法(特别是基于深度学习的方法)、数据集、比赛等;2) 本文吸纳了多个综述的分类方法,新增了自2020 年以来的工作(包括方法、比赛等),在此基础上提出新的分类方法,并按照时间线总结了发展进程,从而更加完整、条理清晰地展示了虹膜呈现攻击检测问题的发展现状;3) 本文新增了虹膜呈现攻击检测技术在工业界实际应用的归纳总结,包括国内外相关公司及其技术、产品和应用场景等;4) 本文新增了虹膜呈现攻击检测与虹膜识别的集成方法,从而有利于读者站在整个应用系统的角度研究和发展实用的虹膜呈现攻击检测技术;5) 本文新增了评估协议,并重点剖析了开集虹膜呈现攻击检测的问题,指明了未来的发展方向;6) 与先前综述主要关注检测性能不同,本文还特别关注了虹膜呈现攻击检测的可解释性、公平性、隐私性等问题;7) 本文新增了中文文献的相关工作,完善了现有的技术体系;8) 本文在吸纳多个综述的未来展望基础上,进一步地阐明了虹膜呈现攻击检测未来亟需解决的五大公开问题,并提出了可能的解决思路.

本文系统地综述了虹膜呈现攻击检测相关研究进展,并对未来发展趋势进行了展望.本文首先从虹膜识别的安全漏洞出发,说明了虹膜呈现攻击检测的必要性,阐述呈现攻击的两种目的及攻击类型.其次根据是否使用额外硬件设备将主流算法分为基于硬件和基于软件的方法两大类进行梳理和总结,详述了部分方法的原理.之后,对虹膜呈现攻击检测领域的开源方法、可申请的公开数据集以及现有比赛进行了整理.除上述以外,本文还重点分析了虹膜呈现攻击检测的可解释性问题,这是当前人工智能关注的焦点.最后,对虹膜呈现攻击检测算法未来可能的发展方向进行了思考与讨论.

1 虹膜呈现攻击检测的难点

1.1 虹膜识别及其安全漏洞

虹膜识别是当前最流行的生物特征识别技术之一,同时也被人们视为最安全可靠的身份认证方法之一.虹膜是在婴儿出生前发育并形成的,生成的纹理高度随机,即便是同一个人左右眼的虹膜纹理都不尽相同,且由于角膜对虹膜的保护,除了需要进行危及虹膜的眼科手术外,已经发育好的虹膜不易受到改变与破坏,说明了虹膜的稳定性和唯一性.另外,虹膜是一个外部可见的内部器官[1-2,25-26],不必紧贴采集设备就能获取满足识别要求的虹膜图像.在新冠肺炎疫情期间,相比人脸识别,虹膜识别不受口罩、护目镜等遮挡的影响;相比指纹识别,也无需直接接触采集设备,因此能够保证身份认证过程的干净卫生与高精度,体现了其独特的优势.

通过虹膜对一个人的身份进行认证,其识别流程如图6 所示,主要包括虹膜图像获取、虹膜图像预处理、特征提取、与数据库进行比对、输出决策结果等几个环节,虹膜图像预处理又包括虹膜检测、分割、图像归一化等部分.

图6 虹膜识别一般流程及关于呈现攻击的脆弱性Fig.6 General pipeline of iris recognition and its vulnerability to presentation attacks

图7 虹膜呈现攻击检测和虹膜识别的两种集成方式Fig.7 Tow schemes for integrating iris presentation attack detection and iris recognition

尽管虹膜相对于其他生物特征公认防伪性较好,但是依然可能会受到不同类型的攻击.常见的安全漏洞可能会出现在虹膜识别的每一步中[27],包括: 1) 图像获取,向传感器呈现用于攻击的真实虹膜或模拟真实虹膜的人工制品,即本文关注的呈现攻击;2) 特征提取,对这一过程的攻击主要是对抗图像,通过对待认证虹膜图像进行扰动,干扰基于深度网络的虹膜特征提取,以逃避虹膜识别;3) 与数据库进行比对,数据库中虹膜模板的泄露也是虹膜识别系统的潜在安全漏洞,虹膜模板经过篡改、窃取或者逆向重建原始图像,都会对识别系统造成极大的威胁.

1.2 呈现攻击的目的

虹膜呈现攻击的主要目的是通过向虹膜识别系统的传感器呈现假体虹膜样本,企图让系统在身份认证的过程中做出错误的决策.根据攻击者的动机,呈现攻击的目的可以分为以下两种:

1) 冒充他人身份(Impersonation)

攻击者的手段是模拟他人身份.因此,攻击者通常使用事先获取的真实虹膜制作假体样本来欺诈虹膜识别系统,其中假体样本包含打印照片、重播放视频、义眼、尸体虹膜等,这就要求攻击者能够访问目标身份的虹膜图像、注册的虹膜模板等有效信息.攻击者可以选择特定的目标进行匹配,也可以匹配注册的任何目标而不仅仅是某一特定身份.

这类攻击的成功会导致注册用户的个人信息泄露,如若涉及社交平台、银行账户[28]等,则会威胁到注册用户的社交关系、财产安全,将会极大地降低虹膜识别系统的安全性以及用户对虹膜识别系统的信任度.

2) 隐藏自身身份(Concealment)

攻击者的目的是逃避身份识别.达到这样的目的有两种途径,一种是需要攻击者通过一些方法来掩盖自身的虹膜纹理信息,比如佩戴有纹理的虹膜隐形眼镜,避免与系统中的纹理信息匹配成功;另一种是在注册用户时使用与自身虹膜纹理无法匹配的假虹膜,如合成虹膜[29]或对自身虹膜进行人工的改变.对于一些简单的虹膜识别系统,在注册身份时使用传感器倒置获取的虹膜图像或在识别时使用滴眼液,就能产生攻击效果.

这类攻击一般发生在一些刑侦、司法场景中,显然这样将会加剧人员排查的难度,给社会带来不稳定因素.一旦发生这类情况,虹膜识别系统就不能作为确认身份的唯一手段,还需要结合人脸、步态等其他有效的生物特征进行身份识别.

应当注意的是某些虹膜呈现攻击类型的目的并不是一成不变的,而是随着应用场景的不同随时可能发生改变.例如,就尸体虹膜而言,在人逝世后的若干小时内,虹膜的纹理仍然足够完整,可以欺骗虹膜呈现攻击检测系统.因此,从理论上讲,尸体虹膜可以作为冒名顶替者攻击逝者的手段.然而,更现实的情况是有人可能使用尸体虹膜图像来隐藏自己的身份.尸体虹膜样本在死亡后的早期阶段与活体虹膜非常相似,因此在实际环境中检测这些样本可能会很困难[17].

1.3 虹膜呈现攻击检测和虹膜识别的集成

在实际的应用场景中,虹膜识别与虹膜呈现攻击检测不应当是割裂的两部分,需要将二者结合起来共同工作,才能满足一个生物特征识别系统所需的精准性、高效性和安全性[19].如图 7 所示,将虹膜呈现攻击检测集成到虹膜识别系统中,主要有以下两种方式:

1) 串行集成

串行集成是一种最普遍的集成方式.虹膜样本首先通过虹膜传感器获取虹膜图像,然后传递给虹膜呈现攻击检测模型进行真假判别.如果图像被判别为攻击样本,将直接丢弃;否则,真实虹膜图像被传递给虹膜识别模型,从而与数据库的模板进行匹配,完成身份验证.串行集成从部署模式上来看,很容易实现,特别适合那些没有配置活体检测功能的虹膜识别装置.在这种情况下,已有的虹膜识别系统维持不变,而只需要在识别流程的前面增加一个虹膜呈现攻击检测功能即可,这样在仅需少量维护工作的前提下极大地提升了现有虹膜识别系统的安全性.然而,也容易看到串行集成可能导致识别时间的延迟,因此保持虹膜呈现攻击检测模型较低的计算复杂度是非常重要的.

2) 并行集成

并行集成是一种改良的集成方式.为提高虹膜识别的效率,减少虹膜呈现攻击检测造成的延迟,将虹膜传感器获取的同一虹膜样本图像分别传递给虹膜呈现攻击检测模型和虹膜识别模型进行处理,其中检测模型将产生虹膜图像为真实类别的分数,而识别模型将产生虹膜图像与模板匹配的分数.然后接下来有两种处理策略: a) 决策融合,首先根据真实类别的分数进行真假虹膜判别,如果是真实虹膜,则根据匹配分数输出虹膜识别结果,否则拒绝识别;b) 分数融合,选择一个合适的指标将真实类别的分数与匹配分数进行结合,产生一个统一的指标得分,用来判别一对样本是否是真实且身份相同的(Genuine bona fide pairs).在策略b)下,不匹配的虹膜对包含两种攻击类型:

i) 平凡冒充攻击: 一对虹膜样本是真实的,但是拥有不同的身份,即冒充者强行进行识别,以试图匹配数据库中存储的某个身份.

ii) 冒充呈现攻击: 被比对的虹膜样本中至少有一个是呈现攻击,而他们的身份可能是相同的,也可能是不同的.

由于并行集成需要依赖两个独立的虹膜呈现攻击检测和虹膜识别模块,因此需要大量的内存完成并行计算,特别是对于目前基于深度学习的虹膜呈现攻击检测和识别算法,这一需求将更加显著.巨大的内存要求严重限制了带有活体检测功能的虹膜识别系统在资源受限的边缘设备或者移动设备上的应用部署.为应对这个挑战,Dhar 等[30]提出一个统一的多任务学习框架同时进行虹膜呈现攻击检测和虹膜识别,通过单个模型极大地减少了计算复杂度和延迟,并通过决策融合的策略完成了最终的身份识别.进一步地,作者提出了两种新颖的知识蒸馏技术即EyePAD 和EyePAD++来逐步地学习两个任务,从而有效地缓解了因缺乏大规模的含有真假类别标注的虹膜识别数据集而导致难以进行模型优化的问题.实验结果表明该方法能够取得有竞争力的虹膜呈现攻击检测和虹膜识别性能,展现了巨大的应用潜力.

2 术语和攻击类型

呈现攻击检测(Presentation attack detection,PAD) 这一术语在国际标准ISO/IEC 30107-1:2016[4]中被提出,它统一了先前被广泛使用的多个术语,如防欺诈(Anti-spoofing)、活体检测(Liveness detection)、伪造检测(Fake detection)、欺诈检测(Spoof detection) 等,并被中国国家标准GB/T 41815.1-2022[31]所采纳.就本文所关注的虹膜生物特征,这里一般称为虹膜呈现攻击检测(IPAD).

2.1 评价指标

ISO/IEC 30107-3:2017 中规定了用于评估PAD性能的方法和指标,中国国家标准GB/T 37036.4-2021 亦有部分描述.如下评价指标用于表示基本的误差度量:

1) 呈现攻击误判率(Attack presentation classification error rate,APCER): 在特定场景中,采用某类呈现攻击手段进行呈现攻击被误判为真实虹膜呈现的比例;

2) 真实呈现误判率(Bona fide presentation classification error rate,BPCER): 在特定场景中,真实虹膜呈现被误判为呈现攻击的比例;

3) 呈现攻击无响应率(Attack presentation non-response rate,APNRR): 采用同类呈现攻击手段进行呈现攻击过程中,虹膜识别系统出现无应答响应的比例;

4) 真实呈现无响应率(Bona fide presentation non-response rate,BPNRR): 真实虹膜呈现过程中,虹膜识别系统出现无应答响应的比例.

除以上四种外,常见的评价指标还有以下几种:

1) 正确分类率(Correct classification rate,CCR): 对真实呈现和攻击呈现正确分类的样本占所有呈现样本的比例;

2) 半错误率(Half total error rate,HTER):总错误率的一半,是APCER 和BPCER 的平均值,有时也被称为平均分类错误率(Average classification error rate,ACER);

3) 错误接受率 (False acceptance rate,FAR):在虹膜呈现攻击检测中,该指标表示为攻击呈现被判断为真实虹膜呈现的比率,即APCER;

4) 错误拒绝率 (False rejection rate,FRR):在虹膜呈现攻击检测中,真实虹膜呈现被判断为攻击呈现的比率,即BPCER.

按照攻击目的的不同,攻击者的成功率可以用以下度量表示:

1) 冒充攻击者匹配率(Impostor attack presentation match rate,IAPMR): 冒充者呈现攻击成功的比例,成功意味着冒充者呈现的特征与目标身份的参考生物特征是匹配的;

2) 隐藏攻击者不匹配率(Conceal attack presentation non-match rate,CAPNMR): 隐藏者攻击成功的比例,成功意味着隐藏者呈现的特征与目标身份的参考生物特征是不匹配的.

2.2 呈现攻击类型

在虹膜呈现攻击检测中,真实/活体(Bona fide,live)虹膜是指具有生命体征的虹膜样本.呈现攻击可以是来自真实虹膜的攻击,如尸体虹膜;也可以是模拟真实虹膜的具有不同复杂程度的人工制品,如打印的照片、重播放视频、美瞳等.常见的攻击类型如图8 所示.

图8 真实虹膜与常见虹膜呈现攻击类型(绿色框内为真实样本,红色框内为假体样本)Fig.8 Bona fide iris and common iris presentation attack types (green box contains bona fide samples,while red box contains fake samples)

呈现攻击工具(Presentation attack instrument,PAI)是指用于呈现攻击的生物特征(可能是非活体)或人造对象,按照属性可以将呈现攻击工具分为使用真实虹膜的攻击和人工制品两类.此外,合成虹膜作为一种特殊的攻击方式,有别于常规的物理攻击,因此也进行了单独讨论.图9 总结了虹膜呈现攻击类型按照PAI 进行分类的结果.

图9 虹膜呈现攻击类型分类(蓝色框内为使用真实虹膜的攻击,绿色框内为使用人工制品的攻击,紫色框内表示合成虹膜攻击)Fig.9 Taxonomy of iris presentation attack types (blue box indicates PAs using real iris,green box indicates PAs using artifacts,and purple box indicates PAs using synthetic iris)

2.2.1 使用真实虹膜的攻击

目前具有这一属性的呈现攻击工具主要有尸体虹膜和病变虹膜两种.

1) 尸体虹膜

这种类型经常出现在司法、刑侦、法医学等背景下,而在现实日常生活中较为罕见,主要因为这种类型的攻击工具不易获取而难以执行.

Sansola[32]曾针对尸体虹膜进行过实验,发现在人类死亡后的11 天内,尸体虹膜识别是可行的.继该实验后,Trokielewicz 等[33]发布了第一个尸体相关的虹膜图像数据库,Sauerwein 等[34]及Bolme等[35]提出并验证了关于失活虹膜在低温下进行虹膜识别的可行性.Trokielewicz 等[22]后来研究了针对尸体虹膜的呈现攻击检测方法.

2) 病变虹膜

病变可能会导致瞳孔变形并偏离其通常的圆形形状,也会导致虹膜或眼球的其他部分(如葡萄膜、角膜、前房甚至视网膜) 发生变化.Trokielewicz等[36]发布了一个含有多种眼部病变类型的虹膜数据集,他们将整个数据集分成五组: 健康虹膜、病变但未受影响的清晰虹膜、瞳孔几何变形、虹膜组织变形、虹膜组织阻塞,其中后三类均表现出虹膜和眼睛区域的明显外在变化;然后他们研究了病变虹膜对虹膜识别的影响,结果发现病变虹膜的识别精度明显下降.因此,Boyd 等[37]将病变虹膜归纳为一种虹膜呈现攻击类型,直接对这种类型的虹膜拒绝识别.需要注意的是,本文中将病变但未受影响的清晰虹膜归为真实虹膜类型.

2.2.2 人工制品

具有这一属性的攻击工具获取途径较多,因而在虹膜呈现攻击中较为常见.呈现攻击类型主要分为两大类: 二维呈现攻击类型与三维呈现攻击类型.二维呈现攻击类型又分为静态图像与动态图像,三维呈现攻击类型分为美瞳隐形眼镜与义眼.具体介绍如下:

1) 静态图像

这种类型的呈现攻击一直以来都得到研究人员的广泛关注.它是指先将通过传感器获取的活体虹膜图像打印在纸张上,如普通的复印纸、高光相纸、绒面相纸等,或显示在电子屏幕上,然后再次呈现给虹膜传感器以进行虹膜识别.随着成像传感器的日益成熟及虹膜识别的广泛普及,用户的虹膜图像越来越容易获得,而使用智能手机或墨水打印机显示高清高质量的虹膜图像也变得非常简单,这就为此类的虹膜呈现攻击提供了便捷的条件,危害较大,因此需要不断提高这一攻击类型的检测准确性.图10 展示了使用屏显虹膜进行静态虹膜呈现攻击的场景.

图10 虹膜识别与屏显虹膜进行静态虹膜呈现攻击(插图取自电影《坏蛋联盟》)Fig.10 Iris recognition and static iris presentation attack using the iris displayed on the mobile phone(the figure is from 《The Bad Guys》)

2) 动态图像

与先前基于静态图像的攻击方式不同,这种方式是基于视频的重放,因此很多时候也叫重放攻击(Reply attack).攻击者在数字显示设备上播放目标用户虹膜的视频来假冒身份,该视频可以是录制的虹膜样本视频或是合成的虹膜样本视频.这类攻击不仅可以模拟虹膜的纹理信息,还可以模拟眼睛的动态信息,例如眨眼、瞳孔变化等.与静态图像相比,检测这类攻击更为困难.

3) 美瞳隐形眼镜

如今,佩戴隐形眼镜的人逐渐增多,其中透明隐形眼镜可以用于矫正近视等视力障碍,而美瞳隐形眼镜通常是为了美观.由于佩戴美瞳隐形眼镜会遮盖用户自身天然的虹膜纹理,导致在虹膜识别中可能会出现无法认证佩戴者自身身份的情况.因此,这一攻击类型吸引了研究人员的广泛关注.就攻击目的来看,攻击者可以通过佩戴印有目标对象的虹膜纹理的隐形眼镜,达到冒充他人身份的目的.另外,攻击者也可以佩戴具有复杂纹理的隐形眼镜进行用户注册或识别,躲避虹膜识别系统的自动身份认证.

4) 义眼

这种类型的攻击工具制作起来较为复杂,因为它涉及到平面图像和立体结构的合成,义眼的材质可以是高分子、玻璃等.自20 世纪初以来,医学领域开始使用义眼治疗眼疾,但制作过程需要较长的时间和准备,成本较高.目前,在实际应用中还没有发现使用他人虹膜纹理的义眼进行攻击的成功案例,因此,使用义眼被认为是一种潜在的呈现攻击.

2.2.3 合成虹膜攻击

起初合成生物特征图像的目的是为了增大公共数据集的量级以进行大规模的算法评测,同时减少人工采集所造成的隐私限制.然而,随着合成图像的技术越来越强和虹膜识别的广泛普及,合成虹膜也被用来进行呈现攻击[8,38].由于合成的虹膜大概率不匹配任何现有的身份,因此这些技术主要用于隐藏身份的攻击,然而仍有一些方法可以用来进行冒充攻击.

早期的虹膜合成主要用于医学领域或者娱乐行业.图形学的研究人员Lefohn 等[39]首先提出了一种3D 渲染技术,允许普通用户借助一个由半透明纹理分层组成的人类虹膜工具包来创建逼真的人眼,特别是虹膜.

Cui 等[40]使用主成分分析(Principal component analysis,PCA)和超分辨率进行虹膜合成,首次将合成虹膜引入到生物特征识别领域.该方法首先构造具有给定系数的粗虹膜图像,然后,利用超分辨率对合成的虹膜图像进行增强,通过对系数的控制,生成多个具有指定类别的虹膜图像.随后,受Wei 等[41]的启发,Makthal 等[42]利用马尔科夫随机场(Markov random field,MRF)生成虹膜图像,合成过程使用单个或多个源域来生成虹膜状图案,通过聚类过程将虹膜图像(真实与合成)从非虹膜纹理模式中区分出来,验证了合成虹膜的可行性.

然而上述方法普遍存在合成虹膜的视觉效果不真实且算法复杂度高的缺点.为解决这些问题,Wei 等[43]介绍了一种新的虹膜合成技术,使用该技术建立了虹膜合成数据库CASIA-Iris-Syn[44],部分样例如图11 所示,其中虹膜图11(b)~11(d)由原型虹膜图11(a)分别经过旋转、瞳孔收缩、离焦等变换所得.

图11 来自CASIA-Iris-Syn[44]中012 子集的合成虹膜样例,其中(b)为(a)的虹膜旋转所得,(c)为(a)的瞳孔收缩所得,(d)为(a)的虹膜离焦变换所得Fig.11 Synthetic iris samples from the 012 subset of CASIA-Iris-Syn[44],where (b),(c) and (d) are obtained from the iris rotation,pupil constriction,and iris defocus transformation of (a),respectively

这种虹膜合成技术可以在短时间内生成一个大型且逼真的虹膜数据库.它的基本原理是首先利用块采样的方法创建原型,然后从每个原型中派生出若干幅类内图像.同一虹膜的图像在外观上的差异归因于许多因素: 形变、离焦、旋转等.为达到这些效果,使用高斯模型来表达瞳孔扩张与收缩的虹膜非线性形变,使用极坐标系下的平移变换来表达虹膜的旋转形变.为增强合成图像的真实性,该方法替换原有虹膜区域,将生成虹膜嵌入到真实的眼睛图像中.

随着近些年深度学习的发展,基于深度学习的虹膜合成技术被研究者提出用于虹膜呈现攻击.Kohli 等[38]在深度卷积生成对抗网络(Deep convolutional generative adversarial networks,DCGAN)的基础上提出一种嵌入虹膜质量度量的扩展框架iDCGAN,用于生成外观逼真的合成虹膜图像,如图12 所示,最终实验验证了这些合成的虹膜图像可以对现有的商业虹膜识别系统进行呈现攻击.Boutros 等[45]发展了一个两阶段的图像生成网络(D-ID-Net)用于合成高保真且身份保持的虹膜图像,以便于进行大规模的虹膜识别训练或者呈现攻击.第一阶段引入一个域网络(D-Net),将含有虹膜、巩膜和瞳孔等标签的分割掩膜转换为类似眼睛的图像,但是不涉及身份信息.第二个阶段引入一个特定身份网络(ID-Net),将某一身份相关的信息注入到第一阶段的输出结果中,产生一个结构上对应于初始语义标签和身份上对应于某指定身份的高保真虹膜图像.这种基于语义分割标签产生特定身份的虹膜合成方法很适合攻击者从外观上操纵窃取的虹膜图像,以生成各种注视视角、不同程度眼睛闭合状态、某种旋转角度等条件下的保持个体身份的虹膜样例.显然,生成的虹膜图像有可能进行冒充身份的呈现攻击.针对现有虹膜呈现攻击检测算法在未知攻击场景下泛化能力较弱的问题,Maureira 等[8]提出使用生成对抗网络进行虹膜合成,以扩充检测算法所需的训练样本数量.StyleGAN2 模型被验证是表现最好的合成工具,能够有效欺骗LivDet-Iris 2020[15]中最好的虹膜呈现攻击检测算法.

图12 真实虹膜与iDCGAN 生成的虹膜[38]Fig.12 Bona fide iris and iris generated by iDCGAN[38]

除此之外,Galbally 等[46]提出了一种另类的虹膜呈现攻击工具,即从虹膜模板中重建用于呈现攻击的虹膜图像.进一步地,如果通过标准的虹膜识别算法分割和编码合成的虹膜图像,将生成与原始模板非常相似的虹膜模板.因此,这种方法可以用于冒充身份的虹膜呈现攻击.

2.3 评估协议

为了评估虹膜呈现攻击检测算法的准确性和泛化性,在第2.1 节评价指标的基础上,还需建立各种评估协议.我们根据现有相关文献,总结了4 种有代表性的协议.

1) 同数据集同类型协议(Intra-dataset intratype protocol): 在大多数的虹膜呈现攻击检测研究中,该协议被广泛使用以评估算法的准确性.具体来说,在该协议下,用来训练和测试算法的训练集和测试集来自同一个数据集,且包含相同的虹膜呈现攻击类型.因此,检测算法所面临的训练域和测试域在采集环境、用户行为等方面具有相似的分布.

2) 跨数据集同类型协议(Cross-dataset intratype protocol): 该协议用来评估算法在跨数据集上的泛化能力.具体来说,在该协议下,算法模型在一个或者多个数据集上进行训练,然后在不同的数据集上进行测试.训练集和测试集含有相同的攻击类型,但是具有不同的领域分布,例如存在照明变化、传感器不同、图像分辨率不一致、攻击材质不同等现象.

3) 同数据集跨类型协议(Intra-dataset crosstype protocol): 该协议通常采用留一法(Leave-one-PAI-out)评估算法对于未知攻击类型的泛化性.具体来说,在该协议下,某一种攻击类型仅出现在测试阶段,而训练阶段则采用其他的攻击类型训练模型.

4) 跨数据集跨类型协议(Cross-dataset crosstype protocol): 该协议是最具挑战性、也是最符合现实应用场景的一种协议.它度量了算法在未知领域和未知攻击类型上的泛化性.具体来说,在该协议下,训练集和测试集所使用的数据集以及包含的攻击类型均是不同的.

除了这4 种评估协议外,还有一些新的协议被提出,例如LivDet-Iris 2017 比赛[14]和LivDet-Iris 2020 比赛[15]所使用的评估协议,它们实际上部分结合了这4 种协议的内容.

3 虹膜呈现攻击检测方法

图13 描述了虹膜呈现攻击检测问题从提出到逐步解决的发展进程.在发展的过程中,新的检测方法层出不穷,同时也不断产生一些新的攻击类型,因此二者呈现一种对抗博弈的状态.此外,一些公开的虹膜呈现攻击检测比赛也不定期举办,促进了虹膜呈现攻击检测技术的发展.Daugman 博士是最早研究虹膜识别技术的领军者,他在提出虹膜识别的经典算法之际,也最早研究了虹膜呈现攻击检测问题[1-2,47].特别地,针对一些典型的攻击类型,如打印虹膜、屏显虹膜、佩戴纹理隐形眼镜等,Daugman 提出了几种检测策略[47]: 测量瞳孔直径与虹膜直径之比、追踪眼睑运动、检测红外照明下的角膜反射或活体组织的光谱特性、进行傅里叶变换检查伪影.

图13 虹膜呈现攻击检测的发展进程Fig.13 Development and progression of IPAD

在Daugman 的基础上,后来的学者开始对虹膜呈现攻击检测问题进行全面而细致的研究.整个发展进程大体上可以分为3 个阶段: 2015 年之前、2015 年至2019 年、2019 年之后.在2015 年之前,研究人员主要研究了基于硬件的检测方法和基于传统计算机视觉的检测方法,前者通过采集人眼的生理和物理特性如瞳孔光照反应、眼动信号等用于防伪,而后者主要从图像信号的角度出发,采用传统的计算机视觉技术提取图像的纹理特征、质量特征等手工特征判别真假虹膜.从2015 年开始,随着深度学习技术在计算机视觉、模式识别等领域的广泛应用,研究人员开始将深度学习引入到虹膜呈现攻击检测问题中,提出了许多行之有效的神经网络检测模型,如CLDnet[48]等,取得了比传统计算机视觉方法更好的效果.先前的方法主要采用了闭集评估的协议,即训练集和测试集包含相同或相似的采集环境和攻击类型,尽管取得了近乎完美的检测性能,但在泛化到未知的采集环境或者攻击类型时,它们的准确性会显著下降.因此自2019 年之后,无论是比赛还是新提出的检测方法,均开始关注虹膜呈现攻击检测的泛化性问题,并提出了异常检测、域自适应等方法.2023 年美国圣母大学Bowyer 教授团队明确指明了开集的虹膜呈现攻击检测仍是一个远未解决的公开问题[37].此外,在整个发展进程中,一些方法提出了多源特征融合的思想,如多模态特征融合、手工特征与深度特征融合等,进一步地提高了虹膜呈现攻击检测的可靠性.

图14 展示了2000 年以来的虹膜呈现攻击检测论文数量,其中大部分论文描述了虹膜呈现攻击检测的方法.英文论文通过Web of Science 和EI Compendex 进行检索,检索条件是标题中含有如下关键词的论文: iris presentation attack detection,iris liveness detection,iris pad,iris spoof detection,contact lens detection.中文论文通过中国知网进行检索,检索条件是标题中含有如下关键词的论文: 虹膜呈现攻击检测、虹膜防伪检测、虹膜活体检测、隐形眼镜检测、美瞳检测.从论文的检索结果来看,可以得出两点结论: 1) 国际上关于虹膜呈现攻击检测的研究较多,国外学者在这一领域长期占据主导地位,而国内对于虹膜呈现攻击检测的研究偏少;2) 自2018 年以来,虹膜呈现攻击检测的研究处于热门状态,大量的新方法被提出,并逐步开始解决虹膜呈现攻击检测的泛化性问题.

图14 虹膜呈现攻击检测的论文数量(数据来源:Web of Science,EI Compendex,中国知网)Fig.14 Number of papers on IPAD (Data source:Web of Science,EI Compendex,CNKI)

针对虹膜呈现攻击检测方法,Czajka 等[16]提出了2 种分类方式,一种是根据2 个维度,即虹膜被视为静态或动态对象以及传感器对虹膜的刺激是主动还是被动,构建一个框架将现有的方法分为4 类,分别为: 静态虹膜被动成像、静态虹膜主动成像、动态虹膜被动成像、动态虹膜主动成像;另一种分类是根据检测方法能否在现实生活中投入使用分为商用方法和理论方法.Boyd 等[17]根据虹膜呈现攻击检测方法是否使用网络结构分为基于传统计算机视觉的方法、基于深度学习的方法以及融合传统计算机视觉与深度学习的方法.

受这些分类方式的启发,本文对其进行了吸收与改进.总体来说,根据是否使用额外硬件设备(除标准的虹膜传感器之外)将虹膜呈现攻击检测方法分为基于硬件与基于软件的方法,其中基于硬件的方法又可以称为基于传感器的方法,它们通过使用特定的传感器来测量眼睛的生理和物理特性以进行攻击检测,这些特性包括与反射相关的光学特性、眼睛中的黑色素或血管结构特征、眼动、眼组织密度等.在基于软件的方法中,按照是否使用神经网络进一步划分为基于传统计算机视觉的方法与基于深度学习的方法,以及多源特征融合的方法,具体分类如表2 所示.

3.1 基于硬件的方法

基于硬件的虹膜呈现攻击检测方法包括多光谱成像、3D 成像、瞳孔光照反应、利用眼动信号等.

3.1.1 多光谱成像

利用特定的反射特性来进行虹膜呈现攻击检测是一类早期的方法.受Daugman 的启发,一些厂商首先提出了通过开闭光源来检查角膜反射的方法辨别真假虹膜,然而这个方法对于打印虹膜存在漏洞,很容易被破解.接着,Lee 等[49]提出了一种改进的方法,即在平行IR-LED 照明条件下,利用产生的普尔钦(Purkinje)反射成像的位置和距离特征判断虹膜活性,可以实现图片、美瞳、义眼等多种攻击类型的检测,不过需要精确控制光源和瞳孔之间的角度,对成像系统要求较高.

后面的方法开始考虑利用更鲁棒的多光谱特性来检测伪造虹膜.Lee 等[50]分别测量了在750 nm和850 nm 波段虹膜到巩膜的反射率比,并且提取了在750 nm 波段的角膜巩膜边缘厚度作为第3 个特征,然后利用支持向量机(Support vector machine,SVM)对提取的3 个特征进行真假分类.结果表明该方法可以很好地检测出打印虹膜、义眼和隐形眼镜三类假体虹膜.He 等[51]提出一种基于眼睛光学特性的活体虹膜检测方法,首先设计并使用了由专用成像和红外照明模块构成的虹膜识别相机,然后寻找虹膜纹理和光斑在不同波段和红外照射位置下的变化,并计算虹膜不同部位的反射率,最后将2 种方法进行结合,根据融合结果作为判断真假虹膜的标准.此外,Park 等[52]将波长750 nm和850 nm 的多光谱图像融合后再根据匹配结果来鉴别伪造虹膜.

由于这些方法没有考虑到周围光照对虹膜反射特性的影响或事先假定注册阶段的虹膜样本来自活体,因此检测能力存在局限.陈瑞等[53-54]通过观察发现,当成像光源的波长从480 nm 变换到860 nm时,活体人眼的巩膜区域的结膜血管会从出现变成消失,而且虹膜纹理细节也会相应的发生变化,如图15所示,但各种伪造虹膜则不会出现这种现象.因此利用活体人眼的多光谱特性,他们提出了一种融合巩膜血管特征和虹膜特征的伪造虹膜检测算法.首先分别采集860 nm 和480 nm 波长的虹膜图像,然后从中提取结膜血管变化数(RNCV)和纹理熵比(ERIT)特征,最后训练SVM 分类器,对两个特征组成的向量进行分类,输出检测结果.实验表明,这种方法可以有效排除打印图像、人造眼、彩色隐形眼镜等各类伪造样本,且满足实时应用要求.

图15 不同波长下的多光谱虹膜图像[53]Fig.15 The multi-spectral iris images at different wavelengths[53]

人眼是高度复杂的精密器官,其中眼球分为3 层: 纤维层、血管色素层和神经层(视网膜),这些层由具有不同光谱特性的有机组织构成,例如纤维层包括巩膜和角膜,血管色素层包括虹膜等.利用多光谱成像进行虹膜呈现攻击检测的基本思想是使用人眼组织的光谱特性来辨别真假虹膜,其中在某些光照条件下,活体人眼将呈现不同于打印虹膜、义眼、隐形眼镜等伪造虹膜的物理或者生理特性变化,从而为攻击检测提供了有利条件.

3.1.2 3D 成像

基于3D 成像的方法利用了眼睛的曲率和3D特性进行虹膜呈现攻击检测.Lee 等[55]在虹膜相机的左右两侧各安装了2 个近红外光源,以捕获3D结构不明显的普通虹膜图像和具有清晰3D 虹膜结构的虹膜图像,然后利用二维小波变换对采集到的两幅图像进行多分辨率分解,并通过Haar、Daubechies 两类特征进行特征提取,最后对两幅图像的特征进行比较分析,使用SVM 分类器辨别虹膜真伪.如图16 所示,虹膜清晰的3D 结构只能在活体人眼中存在,而打印虹膜和纹理隐形眼镜没有这样的3D 结构,义眼也很难制作出像真人虹膜那样精细的3D 结构,因此可以利用这样的假体线索有效检测出特定的虹膜呈现攻击类型.

近年来,光场成像技术以其多视角、多维度、多焦点成像的特点逐步应用于生物特征识别领域.Raghavendra 等[56]首次提出了一种利用光场相机(Light field camera,LFC)的固有特性进行可见光场景下虹膜呈现攻击检测的方法.该方法通过对光场相机渲染的多幅具有不同对焦深度的图像进行处理,测量图像序列的对焦能量变化量来区分真假虹膜样本,在可见光谱拍摄下的打印虹膜和屏显虹膜两类攻击类型上取得了较好的检测效果.

受上述方法的启发,宋平等[57]引入了更先进的计算光场成像技术,通过软硬件结合的方式,充分挖掘四维光场数据的信息.该方法使用自研的先进光场相机采集了距离更远、环境更复杂的光场虹膜图像,利用光场数字重对焦技术提取了眼周区域的立体结构特征和虹膜图像的纹理特征,并在特征层融合后使用SVM 分类器进行真假虹膜样本分类.实验结果表明该方法可以准确有效地检测打印虹膜和屏显虹膜两类攻击类型.

最近,Luo 等[58]通过引入深度学习技术进一步地升级了宋平等[57]提出的方法,通过利用面向平面和面向序列的现有深度特征作用于光场相机渲染的焦栈图像序列,挖掘光场相机捕获的真实虹膜和攻击虹膜在3D 几何结构和2D 空间纹理上的差异性来进行真假判别.一组预训练好的深度学习模型用来进行特征提取,SVM 分类器的参数在有限数量的样本上进行优化.最终实验结果表明,通过融合3D 结构特征和2D 纹理特征,取得了比单一特征更好的检测性能,并超过了包括宋平等[57]方法在内的若干最先进方法.

除了以上成像模式外,Sharma 等[59]又研究了光学相干层析成像(Optical coherence tomography,OCT)的技术,并通过与近红外(NIR)、可见光(VIS)成像下的图像进行比较,衡量使用OCT技术进行虹膜呈现攻击检测的可行性.OCT 是一种具有非接触、非侵入、成像速度快、探测灵敏度高等优点的微米分辨率成像模式.与近红外和可见光成像捕捉虹膜的2D 虹膜纹理信息不同,OCT 成像可以捕获眼睛和虹膜的内部结构和形态,产生了二维横截面图像(2-D cross-sectional image).图17展示了在OCT、近红外和可见光三种光谱下真实虹膜和呈现攻击的样例图像.进一步地,使用3 种先进的卷积神经网络VGG19、ResNet50 和DenseNet121 来实现3 种成像模式下的虹膜呈现攻击检测分类模型,并在由2 169 张真实虹膜图像、177张义眼图像和360 张纹理隐形眼镜图像组成的自制数据集上进行比较分析.结果表明使用OCT 成像进行虹膜呈现攻击检测是一种切实可行的解决方案.

图17 使用(a) OCT,(b) 近红外和(c) 可见光成像获取的真实活体虹膜、义眼和纹理隐形眼镜的样例图像,其中可见光图像中的红线表示OCT 扫描仪的遍历扫描方向[59]Fig.17 Example images of bona fide iris,artificial eye and textured contact lens captured using (a) OCT,(b)NIR and (c) VIS imaging modalities,where the red line in the VIS image shows the traverse scanning direction of the OCT scanner[59]

3.1.3 瞳孔光照反应

检查环境照明的变化对瞳孔大小的影响也是检测虹膜呈现攻击的有效方法之一,其背后的原理为瞳孔具有自动调节光通量的功能,当光照亮度增强时,瞳孔收缩减少光通量;当光照亮度减弱时,瞳孔扩张增加光通量,这种非自发的生理效应称为瞳孔光反射(Pupillary light reflex),如图18 所示.瞳孔的这种功能保证了在各种环境下有适量的光线进入眼睛,既能实现清晰成像,又不会有过量的光线灼伤视网膜.此外,常见的静态图像攻击方式如打印虹膜、屏显虹膜、义眼等,不会随着光照变化而发生瞳孔的相应变化,因此可以据此进行检测.

图18 活体人眼在光照刺激下的瞳孔缩放效应示例Fig.18 Illustration of the pupil contraction/dilation of live eye due to visible light stimulus

然而上述方法可能无法有效检测半透明的纹理隐形眼镜攻击,因为这类隐形眼镜靠近瞳孔一侧是透明的,而外侧与虹膜纹理叠加,是不透明的.此时,瞳孔光反射效应仍然是可见的.为解决这个问题,Park[60]提出通过检测靠近瞳孔侧的虹膜局部特征的变化识别半透明纹理隐形眼镜攻击的方法.首先获取在光照变化刺激下的一对含有瞳孔缩放效应的虹膜图像,然后进行虹膜内外圆定位获取有效的虹膜区域,并提取靠近瞳孔侧的局部虹膜区域进行归一化变换,产生矩形的虹膜图像.接着,应用Daubechies 小波滤波器在一对矩形虹膜图像上提取虹膜纹理特征.这时,对于活体人眼来说,两次提取的虹膜特征是比较相似的,而对于半透明的纹理隐形眼镜来说,由于发生了虹膜与纹理隐形眼镜叠加,导致两次提取的虹膜特征会发生明显的变化.因此通过比较两次特征提取的差异性,可以有效检测出半透明的纹理隐形眼镜这类攻击.具体地,使用SVM 分类器对提取的特征进行分类,从而实现了真假虹膜的检测.

Czajka[61]基于瞳孔光反射的效应提出了一种新的方法,通过控制30 s 内点光源的亮度变化,根据瞳孔的动态变化(Pupil dynamics)和与Kohn-Clynes 瞳孔收缩模型的拟合情况区分真假虹膜样本.该方法精度较高,但数据采集时间较长且采集时人眼舒适度低.

总的来说,基于瞳孔光照反应的方法比较适合于检测静态虹膜呈现攻击类型,而对于动态攻击类型则不一定有效,例如在视频重放攻击上,可以通过带光源探测功能的视频播放设备播放事先录好的瞳孔缩放变化的虹膜图像视频来欺骗检测系统.当探测器感应到检测设备的光源发亮时,播放预先录好的小瞳孔虹膜图像或图像处理改变视频瞳孔大小;当探测器感应到检测设备光源关闭时,播放预先录好的大瞳孔虹膜图像或图像处理改变视频瞳孔大小等.因此,要注意此类方法在应用过程中的局限性.

3.1.4 眼动信号

眼动信号(Eye movement signal,EMS)一定程度上是控制视觉的大脑区域与眼球周围肌肉组织相互作用的结果,其控制运动方式较为复杂.眼动能描述瞳孔的动态变化,能直观地反映人的注视点和注视时间,常见指标包括平均注视时间、注视次数、注视顺序、平均眼跳幅度、眼跳次数、扫描持续时间、扫描方向等[62].由于获取眼动信号的眼动仪或者眼球跟踪装置普遍使用近红外摄像头,与虹膜识别的成像方式非常相似,并且眼动特征和虹膜特征均取自眼部区域,所以将二者进行集成使用是一种很自然的选择.特别地,眼动作为一种复杂的动态信号,不易被攻击,可以用来辅助虹膜呈现攻击检测.

Rigas 等[63]通过分析在眼动跟踪过程中获得的大量与注视相关的特征来检测打印虹膜攻击,并构建了一个由眼动记录和相应虹膜图像组成的数据集ETPAD v1 来实际评估所提出的方法.结果表明,该方法的正确分类率(CCR)达到95.7%,并且即使在信号捕获频率低至15 Hz 的情况下,通过眼动信号依然可以较好地检测打印虹膜攻击.在此基础上,Rigas 等[64]提出了一个增强的特征集,以建模额外的攻击畸变来源,在一个更大的打印虹膜攻击数据集ETPAD v2 上呈现出更准确的检测性能,其平均正确分类率(Average classification rate,ACR)为96.5%,最小等错误率为3.4%.

最近,Raju 等[65]将深度学习方法引入到基于眼动信号分析的虹膜打印攻击检测中.采用了眼部注视位置产生的速度信号作为输入,通过自制的ResNet 网络进行特征提取,最后输出分类分数,从而判别该信号是来自真实样本还是打印虹膜样本.该方法的有效性在ETPAD v2 数据集上得到了验证,并在两种不同的攻击场景中的平均正确分类率(ACR) 分别达到98.06% 和87.78%,超越了Rigas 等[64]方法的性能.进一步地,该方法只需要1.5 s的眼动数据即可做出决策.

总的来说,基于眼动信号的检测方法与大多数基于图像质量特征(如纹理、模糊等)的方法不同,后者往往会受到图像采集过程中噪声带来的干扰,而前者是一个基于信号处理的框架,对真实虹膜和攻击虹膜的结构差异性产生的畸变进行统计学建模,更为鲁棒.此外,基于眼动信号的方法分析了自然的眼球运动,不要求任何复杂的光照模式或专门针对眼睛的刺激过程,实现成本较低.

3.1.5 总结

综合上述多种方法的描述,可以发现: 基于硬件的虹膜呈现攻击检测方法能够采集丰富的眼部生理和物理特性用于防伪,在某些类型的攻击检测上准确率很高,且具有很好的可解释性.然而一般需要使用额外的成像设备,自主搭建采集系统,控制采集环境,甚至需要用户的主动配合.因此这种方法操作复杂度高、采集效率低、成本不便宜,对用户可能带来较大干扰,无法便捷应用在如笔记本电脑、手机等移动设备或者边缘设备上.

3.2 基于传统计算机视觉的方法

在深度学习技术兴起之前,基于软件的虹膜呈现攻击检测方法普遍采用传统计算机视觉技术提取手工特征以区分真假虹膜.迄今为止,这类方法仍然被很多虹膜识别厂商所采纳.典型的传统计算机视觉分析方法包括基于图像纹理的方法和基于图像质量的方法.图19 左边展示了一些有代表性的基于传统计算机视觉的方法.

图19 近年来有代表性的基于软件的虹膜呈现攻击检测方法Fig.19 Recent representative software-based iris presentation attack detection solutions

3.2.1 基于图像纹理的方法

在虹膜识别中,有区分性的特征主要是虹膜纹理特征,而且纹理的畸变也是判别真假虹膜最常见的线索,因此基于图像纹理的方法是传统虹膜呈现攻击检测方法中的主流方法.这类方法通常使用二进制统计图像特征(Binarized statistical image features,BSIF)[66]、局部二值模式(Local binary patterns,LBP)[67]、灰度共生矩阵(Gray-level cooccurrence matrix,GLCM)[68]、二值六角极值模式(Binary hexagonal extrema pattern,B HXEP)[69-70]等算子来描述局部纹理特征,并通过SVM、MLP(Multilayer perceptron)[71]网络等作为二元分类器来区分真假虹膜.

在众多的算子中,Haralick 等[68]在1973 年提出的灰度共生矩阵(GLCM)是最早用于纹理特征提取的方法之一,被广泛应用于许多纹理分析应用中.如图20 所示,左边是灰度图像,右边是灰度共生矩阵(GLCM).它是一个大小为H×H的二维矩阵,其中H是灰度图像中最大的灰度值.GLCM 有4 个计算方向: 水平(0°)、右对角线(4 5°)、竖直(9 0°)、左对角线(1 35°).图中选择的计算方向为水平方向,即GLCM (i,j) 表示在灰度图像中满足水平相邻关系的像素值为i和j的一对元素出现的频率.一幅图像的灰度共生矩阵能反映出图像灰度关于方向、相邻间隔、变化幅度的综合信息,它是分析图像的局部模式和它们排列规则的基础.在得到了灰度共生矩阵后,可以在其基础上计算二次统计量来描述图像的纹理信息.文献[68]中定义了14 个用于纹理分析的GLCM 特征统计量.Ulaby 等[72]研究发现,在14 个纹理特征中,仅有角二阶矩、对比度、相关性、熵这四个特征量是不相关的.由于这四个特征量既便于计算,又能给出较高的图像分类精度,因此一般被用来提取图像的纹理特征.

图20 GLCM 计算过程示例Fig.20 Example of GLCM calculation process

在众多的分类器中,SVM 是解决传统模式识别问题最主流的方法之一.它是一种监督学习方法,最初是针对二分类问题开发的,通过寻找将正负样本分开且间隔最大化的决策超平面来执行两个类之间的模式分类,而位于间隔边界上的正类和负类样本称为支持向量(Support vector).除了一般的线性可分问题外,通过引入核函数到SVM 中,也能解决非线性可分的问题.具体地,核函数将原始输入空间映射到新的更高维特征空间,从而使得原本线性不可分的样本在核空间可分,这时区分正负样本的决策边界变成了超曲面.通过这样的方式极大地扩展了SVM 应用的范围.常见的核函数包括多项式核函数、高斯核函数、Sigmoid 核函数等.

鉴于灰度共生矩阵(GLCM)和支持向量机(SVM)的众多优点,研究人员陆续将二者进行结合应用到虹膜呈现攻击检测中,取得了良好的效果.

He 等[73]研究纹理隐形眼镜的攻击发现,靠近虹膜外边界的隐形眼镜区域提供了最有用的纹理信息,可以区别真假虹膜.为此,他们首先采用了改进的Canny 边缘检测算子和Hough 变换进行虹膜外边界检测,然后经验地估算靠近虹膜外边界的环形区域.为了避免受到睫毛和眼睑的遮挡干扰,只提取了虹膜中的下半部分区域进行归一化,如图21所示.紧接着,在归一化的虹膜图像上提取了基于GLCM 的两个特征统计量,即对比度和角二阶矩,和整体图像的像素值的均值和方差组成一个4 维的特征向量,并送入到SVM 中进行真假分类.实验结果表明,该方法在精度和速度上都有令人鼓舞的表现,其中在一个由1 000 张活体虹膜图像和100 张纹理隐形眼镜虹膜图像组成的自制数据集上取得了100%的正确分类率.

图21 纹理隐形眼镜图像的虹膜预处理过程[73]Fig.21 Iris preprocessing process for images with textured contact lens[73]

在He 等[73]的基础上,Li 等[74]进一步地提出了一个改进的虹膜呈现攻击检测方法.首先他们认为先前的基于GLCM 和SVM 的方法仅关注特征矩阵的统计特性,而忽略了纹理特征的细节,孤立了纹理细节之间的内在联系,但是后者对于纹理隐形眼镜攻击的检测是非常有价值的.为此,他们通过曼哈顿距离扩展了GLCM 特征的尺度,使得可以提取更多的虹膜细节纹理特征及其相关信息.改进的特征提取矩阵称之为Modified-GLCM.然后使用MLP 网络取代SVM 进行真假虹膜分类.最后在更具挑战性的LivDet-Iris 2017 (Clarkson)虹膜数据集上,该方法明显地超越了基于GLCM 和SVM的方法,且Modified-GLCM 相比GLCM 也更加有效.此外,相比LivDet-Iris 2017 的最好模型,该方法也获得了更好的结果,其中活体样本的拒绝率为2.22%,攻击样本的接受率为1.97%.

Wei 等[75]进一步地提出了3 种检测纹理隐形眼镜攻击的方法: 测量虹膜外边缘锐度(Iris edge sharpness,IES)、利用虹膜纹理基元(Iris texton)和计算灰度共生矩阵(GLCM).第1 种方法考虑到在虹膜的外边缘处,纹理隐形眼镜图像的灰度变化比真实虹膜图像的更加尖锐,因此定义了虹膜外边缘锐度指标,作为检测虹膜呈现攻击的一个指标.在第2 种方法中,纹理基元是指图像中组成各种纹理的基本微结构,一定数量的纹理基元可以根据统计图像中反复出现的微结构而得到,然后再对所得的纹理基元进行直方图统计,作为一幅图像的纹理特征.一个单独的纹理基元表达的是局部纹理特征,而纹理基元的统计直方图则表达纹理图像的全局性分布,是一种全局特征.这里提取了虹膜图像的虹膜纹理基元全局特征进行真假分类.第3 种方法则在归一化的虹膜图像上提取了基于GLCM 的3 个特征统计量,即逆差矩、和平均、和熵,来区分真假虹膜.第一种方法不需要训练,采用阈值法进行真假分类,后两种方法均使用SVM 进行真假分类.在自制数据集上的实验结果表明,3 种方法均能有效地检测出纹理隐形眼镜图像,其中基于虹膜纹理基元的方法泛化性最好.

小波变换是一种用于决定卷积的特定窗口函数,提供了将图像分解成不同尺度组成的一种数学框架.小波包变换是小波变换的推广,它将现有的信号向下分解时,将信号转化为低频部分和高频部分(细节部分),然后不仅对低频部分进行进一步的分解,而且对包含大量细节信息(细小边缘或纹理)的高频部分也进行分解.因此,受小波包变换强大的信号分析能力的启发,He 等[76]提出了一种基于小波包变换的虹膜呈现攻击检测方法.首先,利用小波包分解提取特征值,为判别攻击虹膜图像提供独特信息;然后,基于提取的小波包特征,利用SVM进行真假虹膜分类.与Daugman[47]提出的利用快速傅里叶变换检测频域的高频谱幅值的方法相比,该方法在清晰的打印虹膜数据集上取得了相同的检测精度,而当打印图像被攻击者故意抖动产生模糊或者因传感器产生离焦图像时,该方法取得了更高的检测精度,其正确分类率为98.18%,而Daugman 方法的正确分类率为80%,这表明了使用小波包分析进行假体特征分析更具优势.

Adaboost[77]是一种迭代算法,其核心思想是针对同一个训练集训练不同的弱分类器,然后把这些弱分类器集合起来,构成一个最终的强分类器.Adaboost 算法不仅能够构建分类器,同时能够选择对于分类最有效的特征集合,因此相较于不具备特征选择功能的SVM 分类器等,Adaboost 算法性能更优.考虑到这些优点,He 等[78]提出了一种基于局部二值模式(LBP)算子和CRBoost (Confidence rate boosting)学习算法的虹膜活体检测方法.该算法首先根据虹膜纹理的径向延展性和环向相关性将虹膜分割成多个子区域,然后使用多尺度的LBP 算子对各子区域进行纹理特征抽取,最后通过CRBoost学习算法并结合高斯核密度估计从候选特征池中挑选对活体检测最有效的LBP 特征,并构建虹膜活体检测分类器.在一组自采数据集的实验表明,该方法在检测精度和速度方面均优于He 等[73]提出的基于灰度共生矩阵和SVM 分类器的方法以及Wei 等[75]提出的基于虹膜纹理基元和SVM 分类器的方法.

Zhang 等[79]针对纹理隐形眼镜虹膜攻击提出了一种基于加权LBP 的检测方法.该方法通过结合局部纹理特征和结构特征设计了一组更有效的特征.具体地,首先在图像的每个像素处提取SIFT 算子.然后,使用SIFT 算子作为加权系数产生加权LBP映射.最后,从LBP 映射中提取统计特征,并使用SVM 对真假虹膜进行分类.在自采数据集上的实验结果显示,这种基于加权LBP 方法的正确分类率为99.14%,高于标准LBP 方法、He 等[78]提出的基于LBP 特征和CRBoost 算法的方法,其中后两者的正确分类率分别为97.55%和98.36%.

先前的工作均考虑了近红外光源下的虹膜攻击,随着可见光虹膜识别的发展,可见光源下的虹膜攻击也有可能发生.为此,Alonso-Fernandez 等[80]首次研究了在可见光下使用RGB 彩色虹膜图像进行攻击与检测的方法.攻击采用了打印虹膜的方式,检测则使用了基于灰度共生矩阵(GLCM)和SVM分类的方法,序列浮动特征选择(Sequential floating forward selection,SFFS)算法用于从GLCM的多个特征统计量中选择最佳特征集合.在Mob-BIOfake[81]数据集上的实验结果表明,集成RGB三种颜色通道和整个眼周区域的特征信息对于检测虹膜攻击是最有利的.

McGrath 等[82]提出了一个开源的虹膜呈现攻击检测方法OSPAD-2D,用于判别真实虹膜与纹理隐形眼镜.该方法无需虹膜分割,因此在原始虹膜图像上使用多尺度BSIF 提取虹膜相关的特征,然后使用SVM、随机森林和MLP 进行分类预测,最后挑选最强的分类器集合按照多数同意(Majority voting)的投票规则进行决策.

Czajka 等[83]提出了一种基于光度立体特征(Photometric stereo features)的虹膜呈现攻击检测方法OSPAD-3D,通过光度立体技术估计虹膜区域的三维特征来检测纹理隐形眼镜攻击.该方法使用2 个不同方向的近红外光源照亮眼睛区域,然后使用一个常规的商用虹膜传感器捕获一对虹膜图像.经过观察发现,真实的虹膜图像对之间的虹膜纹理阴影相差很小,因此通过光度立体技术可以重建出一个大致的平面,然而,纹理隐形眼镜图像对之间产生了显著不同的虹膜纹理阴影.受这些假体线索的启发,OSPAD-3D 方法从一对图像的非遮挡区域中利用光度立体技术估计出虹膜表面的法向量,并计算向量距离平均法向量的方差作为虹膜呈现攻击检测分数.显然,真实虹膜趋向于更一致的法向量,因此分数较小,而纹理隐形眼镜则会产生较大的分数.

尽管OSPAD-3D 方法在大多数未知的纹理隐形眼镜攻击上泛化性很好,但是当隐形眼镜高度不透明时,产生的阴影就不那么明显,因此导致方法失效.为了解决这个问题,Fang 等[84-85]提出了一种融合方法,命名为OSPAD-fusion.该方法融合了基于二维纹理特征的OSPAD-2D 方法[82]和基于三维光度立体特征的OSPAD-3D 方法[83],并通过级联融合算法有效结合两种方法的优点.在数据集NDCLD15[86]和新数据集NDIris3D 上的实验显示,该方法在各种开集测试场景下具有很强的鲁棒性,且性能优于所有之前可得的开源方法.

Dronky 等[87]对基于BSIF 算子和SVM 分类器的虹膜呈现攻击检测算法进行了深入研究.四个含有打印虹膜、义眼、合成虹膜和纹理隐形眼镜的公开虹膜假体数据集参与了评估,输入图像采用2种模式: 分割后的虹膜图像和未分割的虹膜图像.结果显示,该基线算法在检测未分割的虹膜图像的纹理隐形眼镜攻击时是最具挑战性的.因此,为了提升此场景的检测性能,提出了一种使用残差图像增强BSIF 算子特征提取能力的方法.具体地,在采用BSIF 进行特征提取之前,分别使用3 个高通滤波器进行图像增强.第1 个滤波器是先前用于图像伪造检测的一阶对称非线性滤波器,第2 个滤波器是隐写分析领域中的一个二阶过滤器,第3 个滤波器是Sobel 滤波器.实验结果显示,3 个滤波器在未分割的虹膜图像数据集上均比先前基线方法提升了纹理隐形眼镜攻击的检测性能.特别地,使用第2个滤波器的提升效果最显著,从先前67%的正确分类率提高到了85.3333%,而最终使用分割后的图像并结合第1 个滤波器可以取得最好的结果,其正确分类率达到了93.3333%.

总体来说,虹膜天然的纹理模式使得基于图像纹理的方法成为虹膜呈现攻击检测中的优选方法.特别是在检测纹理隐形眼镜的攻击上,很多方法挖掘局部区域的纹理假体线索,取得了较好的效果.此外,此类方法计算复杂度较低,容易实现.然而,由于传统的纹理特征提取方法无需训练,在参数选择和特征表征上很难达到最优,因此可能仅适应于小范围的数据集或者攻击类型,而在检测未知的个体、成像环境、传感器、攻击方式等因素的跨域攻击方面,普遍存在泛化性不足的问题.

3.2.2 基于图像质量的方法

一般来说,图像质量评价(Image quality assessment,IQA)主要是指对图像进行特性分析研究,然后评估出图像优劣(图像失真程度).在经典的虹膜识别流程中,虹膜图像质量评价往往用来过滤在离焦模糊、运动模糊、光照变化、瞳孔缩放(弹性形变)、有效区域遮挡以及斜眼等方面质量较低的虹膜图像,提高虹膜识别的适用性和准确率[88].Galbally 等[89-90]观察到假体虹膜与真实虹膜之间的“质量差异”,将虹膜图像质量评价引入到虹膜呈现攻击检测中,并且假定: 在攻击尝试中捕获的假体虹膜图像与在正常的识别环境中获取的真实虹膜图像具有不同的质量.这种基于图像质量评价的方法也被用来检测人脸、指纹等模态的呈现攻击,因此具有较好的通用性.

真假虹膜样本之间的预期质量差异可能包括:锐度、颜色和亮度水平、局部伪影、信息量(熵)、结构扭曲或自然外观.例如,从打印纸张上捕获的虹膜图像更容易因颤抖而模糊或失焦.根据“质量差异”的假设,Galbally 等[89-90]探索了使用常规的图像质量评价方法来检测虹膜呈现攻击的潜力.一般地,检测问题被视为一个二分类问题,其中输入虹膜图像被分类为真实虹膜或呈现攻击.这个过程的关键在于寻找一组有判别力的特征,允许建立一个适当的分类器,在给定提取的特征集的条件下预测图像真实性的概率.

如图22 所示,Galbally 等[89]首先提出了一种基于质量相关特征的虹膜活体检测方法.仅需要一张输入图像进行处理,首先进行虹膜分割和定位,为此使用圆形霍夫变换检测虹膜内外圆.然后,从原始图像和分割后的虹膜区域中提取了22 个不同的质量指标,这些指标从四方面进行度量: 焦点(Focus)、运动模糊、遮挡、对比度或者瞳孔-虹膜半径比率等.接着,使用序列浮动特征选择(SFFS)算法从中选取最具判别力的质量指标,组成特征向量.最后,使用二次判别分析(Quadratic discriminant analysis,QDA)进行二分类.该方法在包含1 600张真假虹膜样例的数据集上进行了实验,其中假体类型为高质量的打印虹膜,结果显示该方法达到了100%的正确分类率,由此可见该方法进行虹膜呈现攻击检测的潜力.

在此之后,Galbally 等[90]又对基于图像质量评价的呈现攻击检测方法进行了更加全面的研究,将此方法从虹膜进一步扩展到了指纹和人脸.在新的方法中,25 种包括全参考(Full-reference,FR)和无参考(No-reference,NR)的图像质量评价指标被选取用于二分类,如图23 所示.这些指标根据4 个一般标准进行选取,以期最大化满足呈现攻击检测的理想要求,分别是: 性能(Performance)、互补性(Complementarity)、复杂性(Complexity)和速度(Speed).其中性能方面考虑已在各个领域中广泛使用的性能良好的指标;互补性考虑图像的互补特性描述;复杂性强调选取低复杂性的简洁特征;速度接近于复杂性,旨在特征提取时间应该尽可能短.当特征选择好以后,一些简单的分类器如线性判别分析(Linear discriminant analysis,LDA)或者二次判别分析(QDA)被用来对样例进行真假分类.

图23 25 种图像质量评价指标的分类[90]Fig.23 Classification of the 25 image quality measures[90]

在全参考的图像质量评价指标方法中,使用清晰未失真的理想图像作为参考,并通过比较待测图像和参考图像来估算待测图像的质量.然而,在呈现攻击检测问题中,参考图像是未知的,检测系统仅能获取输入的样例图像.为了克服这个限制,新方法采用了先前应用于图像篡改检测和隐写分析领域的策略,即将输入的灰度图像I 使用低通高斯滤波器(σ=0.5,核大小为 3×3) 进行平滑处理,获取新图像 Î,然后,Î 被当做是I 的理想情况进行全参考的图像质量评价计算.进一步地,全参考图像质量评价方法分别考虑了误差敏感性度量(Error sensitivity measures)、结构相似性度量(Structural similarity measures) 和信息论度量(Information theoretic measures).无参考的图像质量评价方法也称为盲评价方法,它无需依赖参考图像,通过一些预训练的统计模型来估计待测图像的质量.由于这种方法完全脱离了对理想参考图像的依赖,因而应用较为广泛.依赖于训练模型的图像和先验知识,这类方法大体分为3 类: 基于特定失真的方法(Distortion-specific approaches),如JQI (JPEG quality index) 和HLFI (High-low frequency index);基于训练的方法(Training-based approaches);自然场景统计方法(Natural scene statistic approaches).新方法在检测虹膜呈现攻击类型上考虑了纸张打印虹膜和合成虹膜两类场景,其中前者使用一个由800 张假体虹膜图像和800 张真实虹膜图像组成的数据集ATVS-FIr DB 进行评测,后者使用一个组合数据集进行评测,即CASIA-IrisV1 构成真实虹膜子集,WVU-Synthetic Iris DB构成假体虹膜子集.实验结果显示,新方法在第1类场景中的正确分类率为97% 以上,在第2 类场景中的正确分类率接近98%,超过了基线方法,并显示出了较高的检测效率.

总体来说,基于图像质量的方法简洁、快速、非接触、用户友好、廉价,且能在多种模态上通用,因此适合部署于实际系统中.然而该类方法也有一些缺点,例如真实图像中也可能存在模糊、遮挡等低质量的现象,有可能造成误检的问题;该类方法尚未在包含多攻击类型、多样本、多采集环境等的大规模数据集上进行评测,因此实际的泛化性能尚未得到证实;目前该类方法主要使用常规图像质量评价标准,并未针对特定模态进行深度优化,特别是结合当下深度学习的图像质量评价方法尚未进行研究.未来该类方法值得进行深入探索和发展.

3.3 基于深度学习的方法

近些年,随着深度学习的日益流行,研究人员陆续提出了基于深度学习的虹膜呈现攻击检测方法,其中大部分方法采用卷积神经网络(Convolutional neural network,CNN)[91]来设计检测模型,并引入了生成对抗网络、域自适应、注意力机制等形式提升传统CNNs 的检测性能.图19 右边展示了一些有代表性的基于深度学习的方法.

3.3.1 传统CNNs

Silva 等[48]首次将深度学习引入到虹膜呈现攻击检测中.他们提出了一个由两层卷积操作组成的浅层卷积神经网络来提取虹膜图像的深度表示,然后附加了一个全连接层和softmax 层进行三分类:纹理隐形眼镜、透明隐形眼镜和无隐形眼镜,模型命名为CLDnet.该方法在两个公开的隐形眼镜虹膜数据集NDCLD13 和IIIT-D CLI 上进行了实验.结果显示: 该方法在NDCLD13 数据集上超越了基于传统特征的最先进检测方法,获得了30%的性能增益,而在IIIT-D CLI 数据集上,获得了与之相当的检测性能.特别地,基于深度学习的方法无需进行虹膜定位和分割,但仍然显示了非常理想的结果.

随着虹膜呈现攻击检测类型的范围增大、采集环境和设备多样化、数据集量级上升,一些更深层的更具判别力的卷积神经网络如VGG、DenseNet 等被引入到虹膜呈现攻击检测中,取得了更高的检测性能.

Trokielewicz 等[22]考虑了使用尸体虹膜图像进行呈现攻击的场景,为此提出了一种基于深度卷积神经网络(DCNN)的虹膜呈现攻击检测方法.该方法采用了VGG-16 模型作为分类网络,通过ImageNet 预训练进行模型初始化,然后在由尸体虹膜和活体虹膜组成的数据集上进行参数权重微调.实验表明,所提出的方法能够正确分类近99%的尸体和活体样本.通过采用Grad-CAM 类激活映射技术[92],表明在尸体虹膜攻击检测中,最有效的假体线索存在于包含虹膜-巩膜边界的图像区域,在某种程度上也包括瞳孔区域.

Yadav 等[93]在检测移动端无约束环境下的纹理隐形眼镜攻击上提出了一种基于DenseNet 的卷积神经网络结构DensePAD,如图19 所示.整个网络模型有22 层,由3 个稠密块(Dense block) 组成.每个稠密块由6 个稠密相连的卷积块组成,其中每一卷积块层接收所有前面的卷积块层作为输入,从而加强特征传播,鼓励特征重用,减少模型参数数量,并产生多样化的特征.然后每个稠密块后面连接着一个过渡块(Transition block),由卷积层和池化层组成,以减少输出的大小.经过多层的特征提取后,最终产生的特征映射通过全连接层和Sigmoid 层输出了真假虹膜的分类分数.此外,该方法接受归一化的虹膜图像作为输入进行分类预测.实验结果表明,该方法在多个数据集上的检测性能均超越了若干传统方法和基于AlexNet 的方法[94].然而在检测未知的隐形眼镜品牌和颜色方面,实验结果显示该方法仍然有较大的提升空间,进一步地凸显了从未知分布中检测虹膜呈现攻击的挑战性.

相似地,Sharma 等[20]也提出了一个基于DenseNet 卷积神经网络结构的虹膜呈现攻击检测模型D-NetPAD.该模型接受裁剪后的虹膜区域图像作为输入,然后通过4 个Dense Block 进行特征提取和分类,最后产生了一个PA 得分来决定输入图像是真实虹膜还是呈现攻击.该模型在跨攻击类型、跨传感器和跨数据集方面显示了较好的泛化性和鲁棒性,同时通过t-SNE[95]绘图、Grad-CAM[92]热图和频率分析进一步地解释了模型的性能.

在利用CNN 进行虹膜呈现攻击检测的过程中,一个经常遇到的问题是由于收集虹膜假体样本的成本较高,过程繁琐,因此很多虹膜PAD 的数据集规模较小,没有包含足够数量的样本,导致很难有效训练CNN 模型,抑或容易导致模型过拟合.为了有效缓解这个问题,一种较为常见的操作是数据扩充,其中最直接的方式是在模型训练过程中,通过各种变换来处理原始虹膜图像.

除此之外,如图24(a)所示,He 等[96]将归一化的虹膜图像采用滑动窗口的方式进行划分,因此产生了多个相邻之间有重叠且大小相等的小图像块(Patch).接着,对每个图像块通过卷积神经网络进行分类学习,然后将各个块的分类输出在决策层使用Logistic 回归进行融合,根据融合结果判断输入的虹膜图像是真实虹膜还是呈现攻击.如图24(b)所示,Raghavendra 等[97]则将归一化的虹膜图像划分为大小相等的不重叠的图像块,然后采用卷积神经网络进行分类学习,最后对多个图像块的分类结果按照多数同意的投票规则进行决策.与前两种方法不同,Hoffman 等[98]没有采用归一化的虹膜图像作为输入,而是为了保留更多的原始像素信息,同时聚焦于虹膜区域,首先考虑进行虹膜分割,然后裁剪包含虹膜区域的图像,并缩放到 3 00×300 像素大小,最后将分割和缩放后的虹膜图像按照棋盘格划分为相同大小且有重叠的图像块,如图24(c)所示.进一步地,划分后的每个图像块被送入到卷积神经网络中预测PA 得分,并通过欧氏距离损失函数进行模型优化.为了进一步地建模虹膜和瞳孔像素的相对重要性,将虹膜分割后的二值掩膜也作为输入,参与模型预测.所有图像块的PA 得分通过加权的分数层融合进行整合,从而判别出真假虹膜.该方法在跨数据集和跨传感器的场景中取得了较好的检测性能,验证了方法的有效性.类似地,Pala等[99]也从分割后的原始虹膜图像中提取了若干个可能重叠的图像块,并据此发展了一个基于三元卷积神经网络(Triplet convolutional networks)的深度度量学习框架用于虹膜呈现攻击检测.他们首先构造了三元组作为输入,包括2 个真实虹膜图像块和1 个假体虹膜图像块,或者2 个假体虹膜图像块和1 个真实虹膜图像块;然后雇佣了一个共享权重的轻量级卷积神经网络用于提取三元组输入的特征,并通过三元组损失函数进行网络优化,使得真假虹膜之间的特征分离开.图像块和三元组的设置极大地增加了训练样本的数量,缓解了虹膜呈现攻击检测数据集规模较小的问题.测试时,通过将查询图像的若干图像块与真假虹膜的图像块参考集进行特征匹配,并按照决策层融合的方法判别真假.实验表明,该方法可以实时运行,并在打印虹膜和纹理隐形眼镜两类呈现攻击类型上取得了较好的性能.

图24 不同的图像预处理模块,其中(a)来自文献[96],(b)来自文献[97],(c)来自文献[98]Fig.24 Different image preprocessing modules,where(a) is from [96],(b) is from [97],and (c) is from [98]

Fang 等[100]观察到真假虹膜样本在虹膜与巩膜边界区域周围存在图像动态的差异性,因而提出了分析归一化虹膜边界区域的微条纹来检测虹膜呈现攻击的方法.如图25 所示,首先进行粗糙的虹膜分割确定瞳孔和虹膜边界,然后对它们进行扩展,从而聚焦于虹膜与巩膜边界区域周围,随后进行归一化和图像增强操作.接着,从增强的归一化虹膜图像中随机采样,获取多个重叠的微条纹进行分析.这些微条纹提供了更低维度的输入数据和更多的训练样本,从而有助于更好地拟合模型.最后,采用一个轻量级的MobileNet V3-small 模型对微条纹进行分类学习,并按照多数同意的投票规则对多个微条纹产生的PAD 决策进行融合,以此增加最终决策的鲁棒性.实验结果显示该方法在多个数据集上具有优异的性能,并能很好地区分纹理隐形眼镜和透明隐形眼镜.在此基础上,Fang 等[101]进一步地在跨数据集和跨攻击类型的虹膜呈现攻击检测上进行了扩展.

图25 基于微条纹分析的虹膜呈现攻击检测方法[100]Fig.25 Micro stripes analyses for iris presentation attack detection[100]

现有的基于CNNs 的虹膜呈现攻击检测方法主要依赖在原始灰度空间中提取的虹膜纹理深度特征,然而这类特征差异不够明显,只能辨别单源假体虹膜.为此,刘明康等[102]提出一种基于增强型灰度图像空间的虹膜呈现攻击检测方法,首先利用ResNet 网络将原始虹膜图像映射到可分离的灰度图像空间,使得真假虹膜特征具有明显的判别性,然后使用预训练LightCNN (Light convolutional neural networks)-4 网络提取新空间中的虹膜纹理特征,并使用三元组损失函数与softmax 损失函数联合训练模型,从而实现二分类任务.该方法在2个单源假虹膜数据库上采用闭集检测方式分别取得了100%和99.75%的准确率,在多源假虹膜数据库上采用开集检测方式分别取得了98.94%和99.06%的准确率,表明该方法具有较好的泛化性.

先前的方法大多数只进行一次决策来判别真假虹膜,而Tapia 等[7]则提出了一种级联的专用深度学习网络执行两次决策来判别真假虹膜,在LivDet-Iris 2020 比赛中以0.46%的最低真实呈现误判率(BPCER)赢得了冠军.在该方法中,首先提出了2个新的数据集,分别扩充真实样本和打印虹膜样本,然后通过各种类型的仿射变换、投射变换、对比度变化、高斯噪声、图像区域随机丢失、裁剪和模糊等操作进行数据扩充,并通过直方图均衡化方法归一化虹膜图像.在预处理完虹膜图像后,使用一个基于MobileNetV2 的级联的两阶段框架进行虹膜真假分类,其中第1 个模型从零开始进行训练,用来区分真实样本和呈现攻击两种类别,而第2 个模型也从零开始进行训练,用来对第1 个模型预测为真的样本做进一步分类,区分真实样本和尸体虹膜、打印虹膜、纹理隐形眼镜虹膜四种类别.模型训练过程中,将类别权重引入到损失函数中,以此平衡不同数量的类别样本.通过这种级联的策略,有效提升了真实样本的分类正确率.

与先前的CNN 分类模型不同,Gautam 等[103]将无监督的自编码器(Autoencoder)引入到虹膜呈现攻击检测中,提出了一种端到端的深度监督类别编码(Deep supervised class encoding,DSCE)检测方法.该方法将虹膜真假样本的类别标签信息与端到端可训练的无监督自编码器模型结合在一起,共同学习一个有效的、具有判别力的和降维的特征向量,而后进行真假虹膜分类.进一步地,重建损失和分类损失联合对模型的特征提取器和分类器进行端到端优化.在不同数据集上的实验结果表明,该方法可以有效地检测打印虹膜、隐形眼镜和合成虹膜,并优于当前的最先进方法,同时跨数据集的实验表明该方法具有良好的泛化能力.

总的来说,使用端到端的CNN 进行虹膜真假分类是目前最常见的虹膜呈现攻击检测方法,该类方法在提升模型的准确度方面效果显著,明显优于基于传统计算机视觉的方法.然而由于依赖数据驱动的二分类学习方法,加之虹膜呈现攻击检测的数据集数量较少,攻击类型不够丰富,导致该类方法容易出现过拟合现象以及在未知攻击类型、未知领域等场景中的泛化性能较弱的问题.因此,很多研究者聚焦于提升检测算法的域泛化能力.

3.3.2 生成对抗网络

近年来,生成对抗网络在许多领域引起了研究者的广泛关注.Goodfellow 等[104]在2014 年提出了生成对抗网络(Generative adversarial networks,GAN),它是一种由生成器和判别器组成的深度神经网络架构.通过在生成和判别之间的多次循环,两个网络相互对抗博弈,继而两者性能逐步提升,最终网络进入一种“纳什均衡”的状态.在此之后,生成对抗网络发展出了很多变体模型,如DCGAN[105]、RaSGAN[106]、StyleGAN[107]等.

由于生成对抗网络在图像生成、图像翻译等领域的成功应用,它首先被研究人员用来进行虹膜合成,如第2.2.3 节所述,合成后的虹膜被陆续验证有潜力进行呈现攻击.此外,生成对抗网络也可以用来进行虹膜呈现攻击的检测.先前提出的很多算法在已知的攻击类型上都取得了较好的性能,但它们普遍将虹膜呈现攻击检测建模为一个二分类问题,因此需要收集大量的真假虹膜样本以训练分类器.然而收集数量充足、类型丰富的攻击样本远比收集真实虹膜样本困难得多.此外,基于二分类的虹膜呈现攻击检测算法往往容易过拟合已有的攻击类型,而在实际应用时,虹膜呈现攻击的类型往往是多样化的,甚至在训练阶段是不可见的,因而检测算法在泛化到未知的攻击类型时容易失败,如图26(a)、26(b).为解决此类泛化性问题,Yadav等[108]采用了异常检测方法,又称单类别分类(Oneclass classification,OCC)[109]方法.具体地,他们首先基于真实的虹膜样本训练RaSGAN,以生成高质量的合成虹膜.在RaSGAN 训练过程中,相对判别器(Relativistic discriminator,RD)学习如何区分真实虹膜与合成虹膜.当模型最终收敛时,相对判别器已经无法区分真实虹膜与合成虹膜,因此在真实的虹膜样本周围拟合出了一个紧致的边界,即产生了一个有效的单类别异常检测器,称为RDPAD.在检测过程中,落在该边界之内的样本被识别为真实虹膜,而任何落在该边界之外的样本被识别为呈现攻击,如图26(c)、26(d).实验结果表明,该方法在检测未知攻击类型时具有可行性,且使用少量呈现攻击样本微调检测器可进一步地提高其泛化性.

图26 基于二分类(上)和单分类(下)的虹膜呈现攻击检测算法在处理未知攻击时的效果示意图[108]Fig.26 Illustration of the effects of IPAD algorithms based on binary classification (top) and one-class classification (bottom) in handling unseen presentation attacks[108]

Ferreira 等[110]提出一种对抗学习的模型用于鲁棒地检测未知的虹膜呈现攻击,使用GANs 学习对呈现攻击类型不变的图像的潜在表示,这些潜在表示保留了与PAD 属性相关的特征信息,同时摒弃了可能阻碍PAD 分类任务的特定攻击工具的相关信息,这样的正则化策略避免了过多依赖于特定的呈现攻击工具种类,从而有利于实现对新的未知攻击类型的有效检测.Yadav 等[111]提出一种新颖的循环图像翻译生成对抗网络(CIT-GAN),用于多域风格传输.为实现这一点,引入一个样式化网络,该网络能够学习训练数据集中表示的每个域的样式特征.样式化网络帮助生成器驱动图像从源域到参考域的转换,并生成具有参考域样式特征的合成图像.每个领域的学习风格特征取决于风格损失和领域分类损失,这导致每个领域的风格特征发生变化.提出的CIT-GAN 用于虹膜呈现攻击检测,为训练集中表现不足的类生成合成呈现攻击样本.使用当前最先进的方法进行评估,证明了这种合成的呈现攻击样本的有效性.此外,使用Frechet 初始距离评分来评估合成样本的质量,结果表明,该方法生成的合成图像质量优于其他方法.

3.3.3 域自适应

域自适应(Domain adaptation,DA)是一种新的方法,能够有效地解决训练样本和测试样本概率分布不一致的学习问题,重点在于如何克服源域分布和目标域分布不同,实现目标域上的学习任务[112].在虹膜呈现攻击检测中使用域自适应方法,模型将被引导学习域不变特征,从而可以鲁棒地区分真实虹膜图像与不同类型的呈现攻击虹膜图像.

现有虹膜呈现攻击检测算法的一个主要问题是缺乏对不同传感器或者不同环境捕获的数据的泛化性,主要原因在于训练模型的图像分布和用于测试的图像分布之间存在域偏移(Domain shift).针对这个问题,El-Din 等[113]首次将无监督域自适应(Unsupervised DA)方法引入进来,旨在通过利用源域中的标签数据和目标域中的未标记数据训练一个模型,减少在未标记的目标域上的分类误差.此外,对抗训练也被用来帮助网络学习域不变特征.具体来说,利用了一个最新的域自适应网络,即域对称网络(Domain-symmetric networks,Sym-Nets)[114]进行虹膜呈现攻击检测.该网络在包含针对源域和目标域的2 个分类器的基础上,增加了真实域判别器与攻击域判别器以便改善域之间的对齐问题.进一步地,利用类别概率与域分类的交互作用,联合地对抗性训练面向移动端的特征提取网络,最终能够生成域不变的特征用于真假虹膜分类.实验结果表明该模型能够有效地提升虹膜呈现攻击检测的鲁棒性和泛化性.

类似地,Li 等[10]考虑在跨数据集的条件下减少域偏移对模型检测性能的影响,提出一种基于小样本的单类别域自适应(Few-shot one-class domain adaptation)方法,其中域自适应仅依赖于有限数量的目标真实样本.该模型包含基于频域的注意力模块(Frequency-based attention module,FAM)和混频模块(Frequency mixing module,FMM)两部分.FMM 将源域图像的高频分量与有限数量的目标域真实图像的低频分量进行混合,生成大规模的皆具源域标签和目标风格的样本图像,这将有助于减少风格差异造成的域迁移.然后源域图像和混合图像一起被送入到残差网络中进行真假分类学习.进一步地,在构成残差网络的残差块中,FAM 网络被包含在内,旨在将频域信息聚合到空间注意力中,显式地强化高频细粒度特征.实验结果表明,集成了FAM 和FMM 的模型在跨数据集和同数据集的评测中呈现出良好的检测性能.

虽然域自适应的方法可以利用未标记的目标数据来最小化源域和目标域之间的分布差异,但是在许多现实应用场景中,收集未标记的目标数据用于训练是困难的、昂贵的,甚至在涉及到隐私问题时是无法实现的.

3.3.4 注意力机制

注意力机制是继卷积神经网络之后近些年深度学习技术发展的焦点,先被用于提升卷积神经网络的特征表达能力[115-116],最近又演化出了完全基于注意力机制的神经网络架构Transformer[117-118].特别地,针对卷积神经网络提取的特征映射,注意力机制可以建模通道维度及空间维度的相互依赖关系,从而强化对预测有用的特征,抑制与之无关的特征,提升网络的预测能力.

Chen 等[21]首先提出了注意力引导的卷积神经网络模型用于虹膜呈现攻击检测.该模型在主干网络的最后一个卷积层上并行配置了两种类型的注意力模块,分别是通道注意力与位置注意力模块,后者也称空间注意力模块.通道注意力模块用于建模特征映射的通道间关系,而位置注意力模块用于建模特征映射的空间关系,两个模块通过逐元素求和来进行融合,从而获取细化的特征,聚焦显著的虹膜区域.实验结果表明该方法在虹膜呈现攻击检测上具有较好的泛化性和可解释性.吕梦凌等[119]针对纹理隐形眼镜虹膜提出一种基于循环注意力机制的检测方法,考虑到真实虹膜与纹理隐形眼镜虹膜之间微小的特征差异,将检测问题看作是细粒度图像分类问题进行处理.首先引入循环注意力机制先后对原始虹膜图像的虹膜区域和纹理区域进行无监督定位,使网络能模拟人眼的视觉特性,进而不断聚焦于关键区域的特征差异以进行呈现攻击检测;其次采用MobileNetV2 对特征分类网络进行轻量化处理,在保持检测精度的同时,减少了网络的参数量和计算量.通过实验表明该方法可以针对真伪虹膜之间关键区域的微小特征差异进行检测,具有更好的准确性和泛化性,且更适宜在边缘设备上的应用部署.陈旭旗等[120]也针对纹理隐形眼镜(美瞳)虹膜提出了一种基于SSD (Single shot multibox detector)目标检测网络的虹膜定位和美瞳检测算法IrisBeautyDet,并对网络结构进行了轻量化处理,引入MobileNet 主干网络显著减少了模型计算量,极大提高了速度.进一步地采用空间注意力和通道注意力机制,提高了模型准确率.实验表明该方法更轻、更快,具有较好的泛化能力和鲁棒性.

尽管在性能上很多基于卷积神经网络的虹膜呈现攻击检测方法超越了传统方法,但是由于它们普遍仅采用真假二值监督来训练模型,带来了在跨攻击类型或跨数据集场景下的过拟合风险.主要原因在于这种二值的监督机制在提供有用的全局信息之时,也削弱了空间上捕获局部假体线索的能力.为解决这个问题,Fang 等[9]引入逐像素二值监督(Pixel-wise binary supervision,PBS)策略,允许利用二值的掩膜监督虹膜呈现攻击检测模型的训练,从而捕获细粒度的像素级或块级的假体线索.进一步地,在此基础上引入空间注意力机制,引导网络自动找到最有助于做出准确决策的区域进行强调或抑制,因此模型被命名为A-PBS.实验结果表明,在注意力机制的辅助下,通过全局的二值监督和局部的逐像素二值监督联合训练的A-PBS 模型具有很强的虹膜呈现攻击检测能力.后面Fang 等在文献[121]中进行了跨域的性能评估,包括跨攻击类型、跨数据集和跨光谱,证实了该方法具有不错的泛化性,但同时也指出跨域的虹膜呈现攻击检测问题仍然是有挑战性的.

3.4 多源特征融合

先前介绍的虹膜呈现攻击检测方法大部分基于单个特征,然而无论使用传统的计算机视觉方法,还是使用深度学习方法,都发现这些提取的特征在面对未知的数据集、未知的攻击类型甚至变化的图像成像环境时泛化性能受到限制,影响了在现实场景中的部署.为解决这个问题,很多研究人员都提出了多源特征融合的思路,考虑通过将多种提取的特征进行融合来提高检测系统的泛化性.目前典型的多源特征融合方法包括传统特征与深度学习特征相融合、多模态特征融合等.

传统特征通常嵌入了大量虹膜相关的先验知识,且计算量相对较小,而深度学习特征从数据中自动学习而来,包含了一些未知的高维抽象特征,因此将二者进行结合,实现优势互补是一个有前途的方向.

Yadav 等[122]将多层冗余离散小波变换域(Multi-level redundant discrete wavelet transform domain)中的局部和全局Haralick 纹理特征与降维后的VGG 特征相结合,来编码真假虹膜之间的纹理变化.然后,这些经串联融合的特征被送入到一个3 层的神经网络中进行真假分类.实验结果表明所提出的融合方法优于单个特征的方法,包括Haralick 特征、VGG 特征以及LBP、WLBP 等传统特征.在基于卷积神经网络的虹膜呈现攻击检测方法中,DenseNet 网络被普遍认为表现良好,因此广泛用来提取深度特征.Choudhary 等在文献[123]中也采纳了一种轻量级的定制版DenseNet121 模型来提取数据驱动的虹膜特征.在此基础上,考虑融合多个手工提取的统计特征,如LBPV、SIFT、DAISY、Multiple BSIF (MBSIF)等.特别地,对于MBSIF 特征,考虑两类,一类是在自然图像上训练的通用滤波器,另一类取自在归一化虹膜数据集上训练过的专用滤波器.进一步地,两类MBSIF 特征均包括3 个不同尺度和位长的BSIF 滤波器,并通过特征串联来组合它们各自生成的特征.这些手工特征和深度特征都被分别喂给SVM 分类器进行单独的训练以区分真假虹膜.为了能够有效识别最优的特征集合,采用分数层融合和统计学测试.最终结果表明,在虹膜数据集训练过的专用特征,包括手工的MBSIF 特征和数据驱动的DenseNet 特征,在区分真假虹膜时,显著优于通用特征.此外,与现有方法相比,两者融合的方法在3 个隐形眼镜的虹膜呈现攻击检测数据集上获得了明显的性能提升.

Kuehlkamp 等[124]提出了一种新颖的集成多视角学习分类器的方法用于跨域的虹膜呈现攻击检测.该方法首先将原始的输入虹膜图像转换到多个不同的BSIF 表示空间;然后通过轻量级的CNNs提取不同视角下的特征进行真假分类;接着选择最相关和互补的多视角分类器;最后将它们的预测结果进行融合,产生最终的决策.实验结果表明,该方法在跨数据集和数据集内部的场景中均超过了Liv-Det-Iris 2017 比赛的冠军方法.

一般来说,通过传感器采集的虹膜图像除了包含虹膜模态外,还包含瞳孔、巩膜、眼周等模态信息,而后者往往也包含一些假体虹膜的线索,因此提取多模态特征并进行融合成为一个很自然的选择.如第3.1.1 节所述,陈瑞等[53-54]融合了在不同波段光源照射下的巩膜和虹膜生理特征,并结合SVM分类器进行真假虹膜判别.Gragnaniello 等[125]针对隐形眼镜的检测和分类需求,提出了同时利用虹膜和部分巩膜区域的局部图像描述子特征的机器学习方法.他们观察到纹理隐形眼镜通常具有非常明显的纹理特征,比天然虹膜更显著,因此可根据虹膜区域的分析来识别它们;另一方面,透明隐形眼镜并不会改变虹膜纹理特征,但是不像天然虹膜那样,一个圆形的边界仍然会或多或少地出现在巩膜区域.受这些观察的启发,他们同时提取了来自虹膜和部分巩膜区域的稠密局部特征,并通过词袋模型(Bag of features,BOF)进行结合,最后使用SVM分类器进行天然虹膜、佩戴纹理隐形眼镜和佩戴透明隐形眼镜的分类.除了虹膜和巩膜特征融合以外,Hoffman 等[126]也提出利用多个卷积神经网络分别提取虹膜和眼周的特征进行融合,从而提升虹膜呈现攻击检测的泛化性.

最近,印度理工学院图像分析和生物特征识别实验室(Image Analysis and Biometrics Lab,IAB Lab)系统研究了检测纹理隐形眼镜的一系列可泛化方法[6,127-128],均采用了多源特征融合的思想.在文献[127]中,他们提出一种基于深度学习的虹膜呈现攻击检测网络MVANet,通过在一个浅层的基础全卷积网络后面并行地连接3 个由全连接层组成的分类网络,学习一个虹膜图像的多特征表示.进一步地,使用串联的形式进行特征融合从而实现综合决策.紧接着,在文献[128]中,他们又考虑了融合两种形式的输入: 原始图像和边缘增强的图像进行特征提取和真假二值分类,其中原始图像帮助学习与环境相关的特征,如传感器特定的、光照特定的特征,而边缘增强的虹膜图像帮助挖掘由于隐形眼镜的纹理和边界而发生的差异线索.两种特征通过一种基于收缩-扩张(Contraction-expansion)CNN 的孪生结构进行联合学习,并通过相加、相乘、串联、距离度量嵌入几种形式进行结合,从而最终用于真假二值分类.除特征层融合外,他们在文献[6]中又探索了图像层融合和分数层融合,其中图像层融合使用原始图像和对比度受限的自适应直方图均衡化(Contrast limited adaptive histogram equalization,CLAHE)增强的虹膜图像作为输入,分数层融合采用加权求和的方法,特征提取和分类器采用14 层的CNN 模型.通过使用多源互补信息的早期和晚期融合,提升了检测模型在处理现实未知场景时的可信度,呈现出良好的泛化性能.实验结果显示后两种方法在某些数据集上的性能均超过了第一种方法MVANet.

总体来说,多源特征融合的方法在检测性能特别是泛化性上明显优于基于传统计算机视觉或者深度学习方法提取的单特征,但是另一方面,这种融合也增加了系统的复杂性,使得计算量增大,不利于在边缘设备上的部署.因此需要在性能与效率方面进行很好的平衡,从而提高这类方法的可用性.

3.5 基于软件的方法总结

基于软件的虹膜呈现攻击检测方法通过对输入的图像进行特征分析判别真假虹膜.不像基于硬件的方法需要额外的成像设备,这类方法仅需要依赖虹膜传感器捕获虹膜图像信息,成本更低,运行速度更快,对用户的干扰较少,但是也容易受到周围环境的影响导致采集的图像质量含有较多噪声,从而降低虹膜呈现攻击检测算法的准确性[129].此外,基于软件的方法在处理未知领域(例如未知攻击类型、未知传感器、未知采集环境等)的测试图像时普遍仍然存在泛化性低的问题,且部分方法呈现出来的高性能具有局限性,大部分数据集只关注于单个或部分攻击类型,远不能满足现实复杂场景的需求[130].

为全面了解现有方法在闭集(Closed-set)和开集(Open-set)场景下的虹膜呈现攻击检测性能,美国圣母大学Bowyer 教授团队[37]进行了全面的研究.首先,他们基于先前来自不同研究团队发布的26 个基准数据集外加新收集的15 万张图像构建了一个迄今为止最大的开放虹膜呈现攻击检测数据集,共计45 万张图像,包含真实虹膜和7 种虹膜呈现攻击类型,即义眼、纹理隐形眼镜、打印纹理隐形眼镜、病变虹膜、尸体虹膜、打印虹膜、合成虹膜.接着,他们对4 个开源的虹膜呈现攻击检测方法和1 个新的基于变分自编码器(Variational autoencoder,VAE)的方法在以上构建的最大数据集上进行了闭集和开集评估.在这些方法中,3 个方法[20,37,131]使用了深度学习进行端到端的检测,2 个方法[82,132]首先提取了诸如LBP、BSIF 等纹理特征,然后使用传统的分类器如SVM、随机森林等进行真假分类.评估协议包含3 类: 闭集评估、留一法评估和LivDet-Iris 2020 评估,其中闭集评估时,算法训练/验证和测试的数据分布和攻击类型均是相同的,类似于第2.3 节介绍的同数据集同类型协议;留一法属于开集评估,测试时聚焦于算法训练和验证时未知的攻击类型,类似于第2.3 节介绍的跨类型协议;LivDet-Iris 2020 评估所使用的训练集和测试集含有部分相同的攻击类型,但是来自不同的数据源,因此从攻击类型的角度来看,它不属于开集评估,主要是用来评估算法在未知领域上的泛化性.

实验结果表明: 1) 闭集的虹膜呈现攻击检测可以看成是一个已经解决的问题,例如5 个评测的算法都取得了98%以上的正确分类率.2) 开集的虹膜呈现攻击检测仍然是一个远未解决的问题,例如没有一个算法在将纹理隐形眼镜作为留一攻击类型时取得高于28%的正确分类率,或者将合成虹膜作为留一攻击类型时取得高于53%的正确分类率.因此,可能有很多虹膜呈现攻击类型是很难通过学习其他攻击类型来进行泛化的,这进一步地表明,一个在所有当前已知攻击类型上学习得到的具有高准确性和泛化性的虹膜呈现攻击检测算法,在遇到新的攻击类型时仍然可能遭遇严重失败.3) 通过在大规模的、多样化的数据集上训练,可有效地提升算法,特别是深度学习算法在跨域场景下的检测性能.4)通过将闭集评估中的若干优秀算法的分类分数通过SVM 进行融合,进一步地提高了在开集场景下的检测性能,并明显击败了LivDet-Iris 2020 比赛的冠军算法,表明算法集成是一种有前途的提升泛化性的方法.除了泛化性问题以外,基于深度学习的方法由于其本身是一个黑盒模型,因此还存在可解释性弱的问题.

3.6 开源方法

目前,虹膜呈现攻击检测方法的开源代码较少,已开源的方法总结在表3 中,其中方法的描述已经在前面内容中呈现,因此不再赘述.

表3 虹膜呈现攻击检测开源代码总览Table 3 Brief overview of open-source IPAD methods

4 开放数据集

Czajka 等[16]对虹膜呈现攻击检测相关数据集进行了总结,但其中并非所有数据集都可以公开申请下载,部分数据集的原申请地址已经失效.为方便研究者,本文整理概括了自2023 年3 月以来仍可以开放申请的数据集,如表4 所示.

表4 虹膜呈现攻击检测开放数据集总览Table 4 Brief overview of publicly available IPAD datasets

Warsaw-BioBase-Disease-Iris v1.0 数据集[36]包括了603 张近红外虹膜图像和222 张相应的可见光虹膜图像,其中大多数图像是从受不同疾病影响的眼睛中获取的.近红外图像由IrisGuard AD100捕获,而可见光图像则由通用型Canon EOS 1000D以及专业的Topcon DC3 相机捕获.每个个体的图像集都附带有一个眼科评论作为元数据.该数据集中识别出的疾病包括: 白内障、急性青光眼、前后房粘连、视网膜脱离、虹膜红肿、角膜血管化、角膜溃疡、混浊、角膜移植、虹膜损伤和萎缩等.

Warsaw-BioBase-Disease-Iris v2.1 数据集[133]是Warsaw-BioBase-Disease-Iris v1.0 数据集的扩展,包括了从115 名眼科患者收集的2 996 张虹膜图像,其中含有1 793 张近红外图像和1 203 张可见光图像.近红外图像由IrisGuard AD10 捕获,可见光图像由通用型Canon EOS 1000D 以及专业的Topcon DC3 相机捕获.每个个体的图像集都附带有一个眼科评论作为元数据.

Warsaw-BioBase-Post-Mortem-Iris v1.1 数据集[33]的采集对象为尸体虹膜,样本取自17 个对象死后近34 天之内的尸检.该数据集包括了使用IriShield M2120U 虹膜识别相机获得的574 张近红外图像和使用Olympus TG-3 相机获得的1 023 张可见光图像.每个逝者都附有年龄、性别和死因作为元数据.

Warsaw-BioBase-Post-Mortem-Iris v2.0 数据集[134]是Warsaw-BioBase-Post-Mortem-Iris v1.1数据集的扩展,采集自温度为6 ℃左右的医院太平间,采集设备和持续时长与Warsaw-BioBase-Post-Mortem-Iris v1.1 数据集相同.最终该数据集包括了从37 个逝者中收集到的1 200 张近红外图像和1 787 张可见光图像.逝者的年龄范围从19 岁到75 岁不等,其中有5 位女性和32 位男性.死因包括心力衰竭(18 例)、车祸(7 例)、自缢(7 例)、谋杀(1 例)、中毒(2 例)和头部外伤(2 例).眼睛的颜色分布为蓝色/灰色/浅绿色(29 例)、浅棕色/淡褐色(5 例)和深棕色(3 例).

Warsaw-BioBase-Post-Mortem-Iris v3.0 数据集[135]是Warsaw-BioBase-Post-Mortem-Iris v1.1数据集的扩展,总共收集了来自42 个逝者的1 094张近红外图像和785 张可见光图像.该数据集与v2.0 数据集的采集对象不重叠,图像采集的时间跨度为死亡后的369 小时(近16 天).

CASIA-Iris-Syn 数据集[43]包含1 000 类10 000张合成虹膜图像,合成的虹膜图像外观逼真,因此大多数人很难区分真实虹膜和合成虹膜.合成方法见第2.2.3 节描述.

CASIA-Iris-Fake 数据集[136]是中国科学院自动化研究所构建的一个多源虹膜呈现攻击检测数据集,包含10 730 张虹膜图像,其中真实虹膜图像6 000 张、打印虹膜图像640 张、纹理隐形眼镜虹膜图像740 张、塑料虹膜图像(义眼) 400 张和合成虹膜图像2 950 张,所有图像均由IG-H100 设备捕获.真实虹膜与纹理隐形眼镜虹膜图像的分辨率为640×480像素,打印虹膜图像和塑料虹膜图像的分辨率大小不一,合成虹膜为归一化图像,分辨率为512×80像素1.

CASIA-Iris-LFLD[57-58]是目前为止第一个近红外远距离光场虹膜呈现攻击检测数据集.该数据集在环境光照多变、采集背景复杂、采集姿态非对正、遮挡等半受控环境下收集.采集对象有14 人,呈现攻击类型包括打印虹膜(普通打印纸、高光相片纸)和屏显虹膜(iPad) 两类.经过图像筛选后,得到504 个可用真假虹膜样本(约5 万张重对焦光场图像),其中包含230 个真实虹膜样本和274 个假体虹膜样本.进一步地,在假体虹膜样本中,普通打印纸虹膜、高光相片纸虹膜和屏显虹膜的样本数分别是18、122、134.

Eye Tracker Print-Attack Database (ETPAD) 是美国德克萨斯州立大学Rigas 和Komogortsev 专门建立的利用眼动信号检测打印虹膜攻击的数据集,包括两个版本: v1[63]和v2[64].建立两个数据集的装置和采集方式相同,只不过v2 版本的数据集比v1 版本的数据集规模更大.采集分为2 个阶段: 第1 阶段,记录志愿者的眼动信号和虹膜图像;第2 阶段,利用捕获的虹膜图像对眼球跟踪系统进行打印虹膜攻击,该系统模拟了具有眼球跟踪功能的虹膜扫描仪,然后记录佩戴了打印虹膜的志愿者的眼动信号.采集过程中,志愿者的头部使用颏托进行固定,然后注视前方向上 3 .5°方向15 s,并使用采样速率为1 000 Hz 的EyeLink 1000眼动仪记录眼动信号,虹膜图像由CMTech BTM-20 虹膜识别系统拍摄,分辨率大小为 6 40×480 像素.在v1 版本中,共有100 个志愿者,男性52 人,女性48 人,年龄在18 到43 岁之间,平均年龄22 岁.在v2 版本中,共有200 个志愿者,男性99 人,女性101 人,年龄在18 到44 岁之间,平均年龄22 岁.每个志愿者均从左眼中捕获2 幅虹膜图像.因此,ETPAD v1 最终包含600 个眼动记录和200 张真实/打印虹膜图像,而ETPAD v2 最终包含1 200 个眼动记录和400 张真实/打印虹膜图像.

Synthetic Iris Textured Based 数据集[137]是一个合成虹膜数据集,包含1 000 个类,每类7 个样本.合成虹膜分2 个阶段生成,在第1 阶段,马尔科夫随机场模型用于生成代表全局虹膜外观的背景纹理.在第2 阶段,生成各种虹膜特征,如径向和同心沟槽、颈圈和隐窝,并将其嵌入到纹理场中.合成的虹膜外观上与真实虹膜非常相似,并被验证可以用来评估虹膜识别算法的性能.

Synthetic Iris Model Based 数据集[138]是一个合成虹膜数据集,由基于模型和解剖学的方法合成,初始目的是为了提供给学术界和产业界大规模的数据集以利于评测新设计的虹膜识别算法.该合成方法分五步进行,具有40 个可控制的随机参数,例如纤维大小、瞳孔大小、虹膜厚度、眼睛大小等,生成了10 000 个类(5 000 名个体,每名个体包含左眼和右眼),每类有16 张图像,1 张优质图像,15 张退化图像,具有噪声、旋转、离焦模糊、运动模糊、低对比度和镜面反射的组合效果.

Unconstrained Visible Spectrum Contact Lens Iris (UVCLI)数据集[139]是第一个可见光谱下的纹理隐形眼镜数据集,包含了1 877 张真实虹膜图像和1 925 张纹理隐形眼镜虹膜图像,采集自35个用户(70 个类别),其中包括17 名女性和18 名男性,年龄在18 至38 岁之间,覆盖了多个种族,如亚洲人、白种人和西班牙人.该数据集的采集地点包括照明受控的室内环境和变化的室外环境,成像设备为配置了EFS 60mm f/2.8 Macro USM 定焦镜头的EOS 60D DSLR 佳能相机.

WVU Unconstrained Multi-sensor Iris Presentation Attack (UnMIPA)数据集[93]由来自81 名个体(41 名女性和40 名男性)的18 706 张虹膜图像组成,这些图像是在室内和室外环境下使用多个虹膜传感器对佩戴和未佩戴纹理隐形眼镜的对象拍摄所得,其中隐形眼镜的品牌和颜色各异,品牌包括Bausch &Lomb、Freshlook Dailies、Freshlook Colorblends 和Celebration,颜色包括蓝色、绿色、灰色、紫色和棕色.该数据集是由真假虹膜组成的单个最大规模的虹膜呈现攻击数据集.

Cataract Mobile Periocular Database (CMPD)[140]是通过移动设备在2 个不同的阶段中捕获的: 术前和术后.术前阶段采集了受白内障影响的眼周图像,术后阶段则采集了手术后7 至10 天的眼周图像.该数据集在术前和术后阶段,分别有145 和99 个受试者,且56 个受试者是重复的,每个受试者的样本数量从3 到6 不等,成像设备为搭载1 600 万像素相机的MicroMax A350 Canvas Knight 手机.该数据集共计包含了2 380 张分辨率为 4 608×3 456 像素的眼周图像.

WVU Mobile Iris Spoofing (IIITD-WVU)Dataset[14]是专为LivDet-Iris 2017 比赛而收集的,由2 个数据集合并而成,其中IIITD 数据集用来进行模型训练,而WVU 数据集用于模型测试.该数据集适合评估在传感器和采集环境不同条件下的跨数据集的检测性能.具体地,训练集由2 250 张真实虹膜图像、1 000 张纹理隐形眼镜虹膜图像和3 000张打印虹膜图像组成,构成了4 个子集类别: 佩戴纹理隐形眼镜的虹膜图像、真实虹膜图像的打印图像、佩戴纹理隐形眼镜虹膜图像的打印图像和真实虹膜图像.测试集由4 209 张使用IriShield MK2120U 移动虹膜传感器在室内和室外两个不同的环境情况采集的虹膜图像组成,其中采集对象分别收集了佩戴和不佩戴纹理隐形眼镜的虹膜图像.测试集共计包含了702 张真实虹膜图像、701 张纹理隐形眼镜虹膜图像、1 404 张打印虹膜图像和1 402 张打印纹理隐形眼镜虹膜图像.

IIITD Contact Lens Iris (CLI) Database[141]包含6 570 张虹膜图像,取自101 名个体的左右虹膜.对于每个个体,使用2 种不同的虹膜传感器(Cogent 双虹膜传感器和VistaFA2E 单虹膜传感器)分别采集未佩戴隐形眼镜、佩戴透明隐形眼镜和佩戴纹理隐形眼镜的对象的虹膜图像.另外,隐形眼镜的制造商为诺华视康和博士伦,而颜色包括蓝色、灰色、淡褐色和绿色四种.

ND Cosmetic Contact Lenses 2013 (NDCLD13) 数据集[142]由2 个子集组成,其中第1 个子集包含了3 000 张图像组成的训练集和1 200 张图像组成的测试集,而第2 个子集包含了600 张图像组成的训练集和300 张图像组成的测试集.第1 个子集使用LG4000 虹膜相机拍摄,训练集和验证集均等分为3 类: 未佩戴隐形眼镜、佩戴透明隐形眼镜和佩戴纹理隐形眼镜,其中前2 类是性别平衡的,包含了不同的种族,而第3 类图像主要来自白人男性.第2 个子集使用IrisGuard AD100 虹膜相机拍摄,并且与第1 个子集的划分方式相同.该数据集的所有纹理隐形眼镜均来自3 个主要的供应商: 强生公司、诺华视康和库博光学,且包含了多种颜色种类.

The Notre Dame Contact Lense Dataset 2015 (NDCLD15)[86]的采集协议与ND Cosmetic Contact Lenses 2013 数据集类似,是后者的扩充版本.所有图像使用IrisAccess LG4000 或者Iris-Guard AD100 虹膜相机拍摄,最终收集了7 300 张虹膜图像,其中6 000 张图像用于模型训练,1 200张图像用于模型测试.另外,数据集被等分为三类:未佩戴隐形眼镜、佩戴透明隐形眼镜和佩戴纹理隐形眼镜,其中所有纹理隐形眼镜均来自五个主要的供应商: 强生公司、诺华视康、库博光学、科莱博和United Contact Lens (UCL),且包含了多种颜色种类.

The Notre Dame LivDet-Iris 2017 数据集[14]基于NDCLD15 进行构造,包含了佩戴和未佩戴隐形眼镜的虹膜图像,专门用于LivDet-Iris 2017 比赛.特别地,比赛的训练集包含了600 张真实虹膜图像和600 张由诺华视康、UCL 和科莱博制造的纹理隐形眼镜虹膜图像;测试集被划分为已知攻击和未知攻击,其中前者包含了900 张由诺华视康、UCL和科莱博制造的纹理隐形眼镜虹膜图像和900 张真实虹膜图像,后者包含了900 张由库博光学和强生公司制造的纹理隐形眼镜虹膜图像和900 张真实虹膜图像.所有图像使用IrisAccess LG4000 或者IrisGuard AD100 虹膜相机拍摄所得.

Notre Dame Photometric Stereo Iris Dataset(WACV 2019)[83]提供了佩戴和未佩戴隐形眼镜的虹膜图像,这些图像是在2 个不同位置的近红外照明下连续拍摄的,使用LG IrisAccess 4000 传感器共采集了119 名个体的5 796 张虹膜图像.该数据集被分为四个部分用于实验: 1) 1 800 张佩戴规则带点状图案的纹理隐形眼镜的虹膜图像;2) 864 张佩戴不规则无点状图案的纹理隐形眼镜的虹膜图像;3) 1 728 张佩戴透明隐形眼镜的虹膜图像(无任何可见的美瞳纹理);4) 1 404 张真实虹膜图像.

NDIris3D[84]数据集共包含6 850 张图像,其中3 488 张图像使用LG4000 拍摄,3 362 张图像使用AD100 拍摄,分别取自89 名佩戴和不佩戴纹理隐形眼镜的个体.在LG4000 拍摄的图像中,1 752 张图像为真实虹膜样本,1 736 张图像为佩戴纹理隐形眼镜样本,含770 个规则带点状图案的纹理隐形眼镜样本和966 个不规则无点状图案的纹理隐形眼镜样本.在AD100 拍摄的图像中,1 706 张图像为真实虹膜样本,1 656 张图像为佩戴纹理隐形眼镜样本,含742 个规则带点状图案的纹理隐形眼镜样本和914 个不规则无点状图案的纹理隐形眼镜样本.NDIris3D 原始是为基于光度立体特征的虹膜呈现攻击检测算法[83-84]而开发的,是已知的最大一个在2 个不同方向的近红外光源照射下,从相同对象获取的带有和不带有纹理隐形眼镜的虹膜数据集.

5 虹膜呈现攻击检测比赛

目前,有关虹膜呈现攻击检测的比赛较少,除在主流的国际生物特征识别会议如ICB、BTAS、IJCB 上举办的系列比赛LivDet-Iris 外,仅有2014年举办的MobILive.本文对比赛信息进行了汇总,如表5 所示.

第一届虹膜呈现攻击检测比赛是由克拉克森大学、华沙工业大学和圣母大学联合在IEEE International Conference on Biometrics: Theory,Applications and Systems (BTAS) 2013 举办的Liv-Det-Iris 2013 比赛[11].该比赛使用的数据集由上述3 所院校提供,包括圣母大学的NDCLD13、华沙工业大学的Warsaw 子集和克拉克森大学的Clarkson 子集,分别使用LG4000、IrisGuard AD100 和DALSA 相机拍摄,攻击类型包括打印虹膜和纹理隐形眼镜虹膜,且所有打印虹膜被成功用于欺骗商业虹膜识别系统,因此这些打印虹膜代表了真实的呈现攻击.比赛共有3 个队伍成功提交了算法,其中University of Naples Federico II 提出的Federico 方法在3 个数据子集上获得了最好的检测结果,其真实呈现误判率(BPCER)为28.56%,呈现攻击误判率(APCER)为5.72%.通过实验分析,进一步地发现打印虹膜相比纹理隐形眼镜虹膜更容易检测.

第二届虹膜呈现攻击检测比赛是由INESC TEC 和波尔图大学联合在IEEE International Joint Conference on Biometrics (IJCB) 2014 举办的MobILive 2014 比赛[12],首次面向移动端环境而设置.比赛使用的数据集为MobBIOfake,采集自100 名个体,每名个体由8 张真实虹膜图像和8 张对应的打印虹膜图像组成,因此共有1 600 张图像,通过移动的手持设备在可见光环境下采集得到.比赛共有6 个来自不同国家和地区的队伍参加,最后来自印度理工学院印多尔分校(IIT Indore)的团队提交的算法赢得了比赛冠军,其真实呈现误判率(BPCER)为0.50%,呈现攻击误判率(APCER)为0.00%,即算法仅错误地将0.50%的真实虹膜错误分类为呈现攻击,而打印虹膜均被正确地识别为呈现攻击.该算法同时融合了3 种纹理特征算子:Local Phase Quantization、Binary Gabor Pattern 和Local Binary Pattern,并将融合后的特征送入带有线性核的SVM 分类器中进行真假分类.比赛结果表明: 闭集的打印虹膜呈现攻击检测可以看成是一个已经解决的问题.

LivDet-Iris 2015 比赛[13]是LivDet-Iris 2013比赛的延续,由克拉克森大学和华沙工业大学联合在International Conference on Biometrics (ICB)2016 上承办.类似地,本次比赛的虹膜呈现攻击类型包括打印虹膜和纹理隐形眼镜虹膜,构成了3 个子集: Clarkson LG 数据集、Clarkson Dalsa 数据集和Warsaw IrisGuard 数据集.Clarkson LG 数据集使用LG IrisAccess EOU2200 相机拍摄虹膜图像,产生了训练集和测试集,前者包含450 张真实虹膜图像、576 张纹理隐形眼镜图像和846 张打印图像,后者包含378 张真实虹膜图像、576 张纹理隐形眼镜图像和900 张打印虹膜图像.Clarkson Dalsa 数据集使用一个修改的Dalsa 相机捕获近红外光下的人脸图像,然后从中裁剪出虹膜区域,产生了训练集和测试集,前者包含700 张真实虹膜图像、873 张纹理隐形眼镜图像和846 张打印虹膜图像,后者包含378 张真实虹膜图像、558 张纹理隐形眼镜图像和900 张打印虹膜图像.Warsaw Iris-Guard 数据集使用IrisGuard AD100 相机拍摄虹膜图像,并使用Lexmark 534dn 打印机打印真实的虹膜图像,构造的训练集包含852 张真实虹膜图像和815 张打印虹膜图像,而测试集包含2 002 张真实虹膜图像和3 890 张打印虹膜图像.最后,比赛共收到了4 个有效的算法提交,其中来自University of Naples Federico II 团队提出的Federico 算法在3 个数据集的平均错误率最低,检测效果最好,其真实呈现误判率(BPCER) 为1.68%,呈现攻击误判率(APCER)为5.48%.总体来说,虹膜呈现攻击检测算法的性能从2013 年到2015 年已经有了巨大的改进.

时隔两年的LivDet-Iris 2017 比赛[14]由克拉克森大学、华沙工业大学、圣母大学、西弗吉尼亚大学和印度理工学院德里分校联合在IEEE International Joint Conference on Biometrics (IJCB)2017 上举办,虹膜呈现攻击类型包括纸质打印虹膜和纹理隐形眼镜虹膜.比赛共使用了4 个数据集进行评测,包括Clarkson 数据集、Warsaw 数据集、The Notre Dame LivDet-Iris 2017 数据集和IIITDWVU 数据集.其中Clarkson 数据集由克拉克森大学使用LG IrisAccess EOU2200 相机进行收集,在LivDet-Iris 2015 使用的Clarkson LG 数据集基础上进行了扩展,训练集包含2 469 张真实虹膜图像、1 122 张纹理隐形眼镜图像和1 346 张打印图像,测试集包含1 485 张真实虹膜图像、765 张纹理隐形眼镜图像和908 张打印虹膜图像.Warsaw 数据集由华沙工业大学收集,在LivDet-Iris 2013 和LivDet-Iris 2015 比赛使用的数据集基础上进行了扩展,训练集包含1 844 张真实虹膜图像和2 669 张打印虹膜图像,测试集包含3 324 张真实虹膜图像和4 176张打印虹膜图像.The Notre Dame LivDet-Iris 2017 数据集和IIITD-WVU 数据集已在第4 节中介绍.总体来说,本次比赛使用了更多的数据集,且新增了2 个设置,第一是将测试集进一步地按照攻击类型分为已知攻击子集和未知攻击子集,已知攻击子集的图像与训练集图像具有相似的采集设置,而未知攻击子集可能取自与训练集不同的成像环境、传感器、攻击工具种类等;第二是设置了跨数据集挑战.最后,比赛共收到了3 个有效的算法提交,其中来自匿名团队提交的Anon1 算法在4 个数据集上取得了最好的平均结果,其真实呈现误判率(BPCER) 为3.36%,呈现攻击误判率(APCER) 为14.71%.本次比赛表明现有算法在检测未知攻击类型或者跨数据集的虹膜呈现攻击方面仍然有较大的提升空间.

LivDet-Iris 2020 比赛[15]是虹膜呈现攻击检测系列比赛的第四届,于2020 年5 月由克拉克森大学、圣母大学、华沙工业大学、瑞士IDIAP 研究所和华沙医科大学联合在IEEE International Joint Conference on Biometrics (IJCB) 2020 上举办.相比前几次比赛,本次比赛呈现出若干新特点: 1) 在先前打印虹膜和纹理隐形眼镜虹膜的基础上,增加了屏显虹膜、义眼和尸体虹膜为新的呈现攻击类型.此外,还增加了一些组合攻击类型,如在纸张打印虹膜上放置透明或纹理隐形眼镜、在义眼上放置纹理隐形眼镜等.2) 将LivDet-Iris 作为一项持续的工作,通过Biometrics Evaluation and Testing(BEAT) 开源平台持续向公众开放评测.3) 本次比赛将选手提交的算法与由圣母大学和密歇根州立大学提供的3 种基准方法以及3 种开源算法进行性能比较.4) 本次比赛没有提供任何官方的训练数据集,比赛选手可以自由使用任何公有和私有数据集设计算法,测试集仅提供关于攻击类型的简短描述,而测试样例并未公开释放给选手.具体地,测试数据集包含5 331 张真实虹膜图像和7 101 张呈现攻击虹膜图像.从攻击类型来看,打印虹膜子集包含了1 049 张虹膜图像,纹理隐形眼镜虹膜子集包含了4 336 张虹膜图像,屏显虹膜子集包含了81 张虹膜图像,尸体虹膜子集包含了1 094 张虹膜图像,义眼及组合攻击子集包含了541 张虹膜图像.各种不同的传感器被使用以获取不同类型的虹膜呈现攻击图像.比赛共收到了3 个有效的算法提交,其中USACH/TOC 团队[7]赢得了冠军,其在所有攻击类型上的平均呈现攻击误判率(APCER)为59.10%,真实呈现误判率(BPCER)为0.46%,即平均分类错误率(ACER) 为29.78%.尽管如此,最好的性能却来自于密歇根州立大学提供的基准算法D-Net-PAD[20],其平均分类错误率(ACER)仅为2.18%,这可能主要得益于其使用了更全面的训练集来设计算法.

总体来说,虹膜呈现攻击检测系列比赛的主要目的是提供一个公开的平台用来公正地评估现有检测算法的性能,其中LivDet-Iris 2013、MobILive 2014 和LivDet-Iris 2015 采用了闭集的评估方法,即训练集和测试集的数据分布和攻击类型是相同的.然而LivDet-Iris 2017 和LivDet-Iris 2020 则提出了更多的挑战,部分采用了开集的评估方法,以度量IPAD 算法在未知目标域和未知攻击类型上的泛化性.从现有比赛结果来看,闭集的虹膜呈现攻击检测问题趋向于已解决,而开集的虹膜呈现攻击检测仍然是一个远未解决的研究问题,特别是大规模的评测数据集仍然是匮乏的,现有算法对未知攻击类型的泛化能力有限,因此需要学术界和产业界的共同努力以促进本领域的进一步发展.更完整的关于虹膜呈现攻击检测比赛的内容可参考最新的综述[143].

6 虹膜呈现攻击检测的可解释性

在生物特征识别系统中,除了准确性外,可解释性也是衡量系统是否可以大范围部署和安全使用的一个重要考量.这里可解释性主要是指某些算法或系统的行为和预测能够被人类所理解.对于虹膜呈现攻击检测,学术界和产业界普遍关注呈现攻击样例被检测出的内部机理,以便调试系统,对系统做进一步的改造升级,减少系统偏见和增加公平性、可靠性.

一般来说,算法可解释性可以分为两类,一类是算法本身由于结构简单而被认为是可解释的,如阈值法、决策树、K-Means 聚类、线性回归、SVM等传统算法具有很好的自解释性,它们的预测结果有迹可循;另一类是事后解释性,即算法模型训练后运用与模型无关的解释方法进行判决归因,分析做出决策的依据.对于很多基于深度学习的虹膜呈现攻击检测算法,由于深度学习模型本身的黑盒效应,因此往往只能采用后一类方法对模型预测的结果进行事后解释,以提供某些观察来分析模型和改进模型.因此,总体来说,基于硬件的方法和基于传统计算机视觉的方法大多具有较好的可解释性,被产业界广泛采用,而基于深度学习的方法普遍解释性较弱,近年来得到了研究人员的日益关注.

Sharma 等[20]通过t-SNE[95]绘图和Grad-CAM[92]热图对提出的基于DenseNet 卷积神经网络结构的虹膜呈现攻击检测模型D-NetPAD 进行了可视化分析.正如第3.3.1 节所述,D-NetPAD 接受虹膜图像作为输入,然后使用4 个Dense Block进行特征提取,最后通过全连接层预测了一个PA得分来决定输入图像是真实虹膜还是呈现攻击.

图27 展示了训练好的D-NetPAD 模型在测试样例上的可视化结果,其中图27(a)为t-SNE 图,它将D-NetPAD 的每个Dense Block 末尾提取的高维特征减小到更低的维度(这里为二维),然后用于构建散点图.从中可以看出,真实虹膜(Bonafide)、义眼(Artificial eyes) 和纹理隐形眼镜(Cosmetic contacts)的二维特征在初始层中重叠在一起,然后随着网络不断加深逐渐被分离,最后彻底分离开来.图中真实虹膜中的2 个蓝色簇分别对应着受噪声影响的左右眼.CNN 特征分布变化的过程显示了D-NetPAD 模型具有先进的特征提取能力,可以较好地辨别真假虹膜.图27(b)显示了在真实虹膜图像、义眼和纹理隐形眼镜上的Grad-CAM 热图,它通过计算虹膜呈现攻击检测分数相对于卷积层特征映射的梯度来衡量图像像素的重要性.如图所示,最后一列表示在整个测试集上每个类别的平均热图,红色区域代表CNN 高度激活,而蓝色区域代表CNN 较低激活.第一行展示了真实样本图像的热图以及平均真实热图,其中高激活区域位于瞳孔附近区域.第二行对应了义眼图像的热图,其中焦点主要集中在虹膜的左右两个子区域.最后一行展示了纹理隐形眼镜图像的热图,其聚焦于虹膜的下半区域.不同类别聚焦于不同的区域,这有助于区分真假虹膜.

图27 D-NetPAD 的特征可视化[20]Fig.27 Feature visualization of D-NetPAD[20]

Chen 等[21]提出了一种注意力引导的虹膜呈现攻击检测模型AG-PAD.为进一步识别用于预测真假虹膜的图像关键区域,在注意力模块前后分别应用Grad-CAM 生成可视化热图,如图28 所示.图中第一行为虹膜图像,其中第一列为真实虹膜,第二和四列为隐形眼镜,第三列为义眼图像;第二行是使用注意力模块之前的可视化结果;第三行是使用注意力模块之后的可视化结果.显然,引入注意力模块使得网络能够将焦点转移到环形虹膜区域,从而做出最终决策.这与人类的直觉相符,一般位于瞳孔区域之外的虹膜纹理在呈现攻击检测中发挥着更重要的作用.

图28 AG-PAD 的Grad-CAM 热图[21]Fig.28 Grad-CAM heatmaps of AG-PAD[21]

正如第3.3.4 节所述,Fang 等[9]提出了一种基于注意力机制和深度逐像素二值监督改进的Dense-Net 模型用于虹膜呈现攻击检测,命名为A-PBS.为进一步地验证这些改进的有效性,他们随机选取了若干真实虹膜和假体虹膜样本,并应用Score-CAM[144]方法生成可视化热图,如图29 所示.作为比较,基于全局二值监督的DenseNet 模型、基于深度逐像素二值监督的DenseNet 模型(PBS)也进行了可视化展示.可以看到,PBS 和A-PBS 模型更加关注于虹膜区域,而DenseNet 模型似乎丢掉了一些信息.进一步地,PBS 模型的注意力热图看起来几乎覆盖了整个虹膜和瞳孔区域,而A-PBS 模型由于使用了空间注意力机制,则将更多的注意力焦点转移到圆形虹膜上,例如虹膜的边界.以上分析表明了注意力机制和深度逐像素二值监督的有效性.

图29 不同方法的Score-CAM 热图[9]Fig.29 Score-CAM heatmaps of different methods[9]

对于尸体虹膜,由于生物特征本身的不同呈现,虹膜样本之间仍存在一些差异,这与眼睑的外观最显著相关.在尸检数据中,眼睑经常被开睑器拉开,以保持眼睛张开状态进行图像采集.为减轻这些差异,要求参与收集活体虹膜的对象尽可能睁大眼睛.然而,开睑器的存在仍然是一个问题,因为这些部件出现在尸体虹膜中,而没有出现在活体虹膜样本中.如图30 所示,为检验开睑器在训练DCNN辨别尸体虹膜和活体虹膜时是否会作为线索,Trokielewicz 等[22]在原始虹膜图像(第一和第二列)和裁剪虹膜图像(第三和第四列)上分别应用了Grad-CAM 进行可视化分析.在第二行中,开睑器清晰地出现在原始虹膜图像中,而在第一行中,原始虹膜图像尽管没有出现开睑器,但是眼睑发生了严重扭曲.裁剪后的图像避开了这些缺点.从Grad-CAM热图可以看出,对于原始虹膜图像,开睑器和严重扭曲的眼睑取代虹膜区域提供了真假虹膜判别线索,这是不合理的.该问题可以通过裁剪虹膜图像来改善.从右图中可以发现,虹膜及其边界成为了模型关注的焦点,但是它们仍然与真实虹膜关注的区域不同,因此可以正确地识别出尸体虹膜.

图30 DCNN 的Grad-CAM 热图[22]Fig.30 Grad-CAM heatmaps of DCNN[22]

总体来说,使用特征可视化方法有助于提高深度学习模型的可解释性,其中t-SNE 从群体特征分布的角度分析了模型的性能,而Grad-CAM 和Score-CAM 则可以针对单个测试实例进行CNN 激活分析,帮助了解影响模型预测的图像显著性区域.除特征可视化方法外,其他针对虹膜呈现攻击检测的可解释性方法几乎没有.另外,在更广的生物特征识别领域对于可解释性研究的相关理论和方法也暂无统一标准,因此研究具有可解释性的虹膜呈现攻击检测算法任重道远.

7 总结与展望

由于虹膜识别具有高精度、稳定性、大容量、非接触性、方便快捷等优点,使得其被广泛应用于现实生产生活场景中.因此,虹膜呈现攻击检测对提高虹膜识别的安全性和可靠性具有重要意义.随着深度学习技术的不断发展,基于神经网络的虹膜呈现攻击检测方法也不断增多,并在性能上取得了显著的进步.除了提高检测性能,越来越多的研究也开始关注可解释性、公平性等其他方面.

本文全面总结了虹膜呈现攻击检测方法的最新进展,介绍了虹膜呈现攻击类型,特别是详述了新型攻击类型——合成虹膜攻击,阐明了虹膜呈现攻击的目的.进一步地,将现有虹膜呈现攻击检测方法分为基于硬件与基于软件的方法,在基于软件的方法中又分为基于传统计算机视觉的方法、基于深度学习的方法和多源特征融合的方法.除上述几点外,本文的主要贡献还在于引入注意力机制的方法、对基于生成对抗网络的方法和域自适应的方法进行了总结、关注检测方法的可解释性、对开源代码以及公开数据集的归纳整理等.

自2003 年Daugman 提出的几种可以检测虹膜呈现攻击的方法起,该问题一直得到了研究人员的关注.不同学者已经研究了各种方法进行虹膜呈现攻击检测,例如依赖额外设备的硬件方法通过利用人眼的生理和物理特性检测攻击;基于软件的方法,包括传统计算机视觉的方法与近年流行的基于神经网络的方法,通过分析图像中真实虹膜与攻击虹膜的纹理差异、质量差异、深度特征差异等检测攻击.尽管这些方法在不同数据集上取得了较好的结果,但虹膜呈现攻击检测中仍有一些亟待解决的潜在问题需要持续进行研究,其中部分问题也引起了生物特征识别领域多位知名学者如美国密歇根州立大学Jain 教授[27]和Ross 教授[145]、美国圣母大学Bowyer 教授[16-17]、印度理工学院焦特布尔分校Singh 教授[146]、挪威科技大学Busch 教授[8]等的广泛关注和讨论.

1) 对未知呈现攻击的泛化性

大多数方法针对单一攻击类型,且用于模型训练的数据集规模相对较小,因此容易导致过拟合.而在实际应用过程中,虹膜呈现攻击类型众多,采集虹膜图像的传感器各不相同,成像环境如光源和采集对象配合程度不同,这些都有可能导致训练集和测试集存在域偏移的问题,降低了模型应用于实际检测的通用性和鲁棒性.更进一步地,如第3.5 节所述,开集的虹膜呈现攻击检测仍然是一个远未解决的问题,目前现有的检测算法对于未知的呈现攻击类型仅有有限的泛化性,难以满足实际应用的需要.为解决跨领域和跨攻击类型的泛化性问题,研究人员陆续提出了域自适应[10,113]、多源特征融合[6,122]、异常检测(或单类别分类)[108,130]、结合人类先验知识[147]等方法,取得了一些进展.然而随着虹膜呈现攻击工具的不断进化、虹膜识别场景的日益丰富和应用范围的逐步扩大,虹膜呈现攻击检测面临的挑战将会与日俱增,因此提升检测算法在处理跨数据集、跨传感器、跨环境、跨攻击类型等场景时的泛化性仍是未来亟需解决的一个关键科学问题[27,145].一些有前途的解决该问题的研究方向包括:a) 使用更新更先进的网络结构;b) 研究优于全局二值监督和局部逐像素二值监督的更有效的IPAD监督策略;c) 利用迁移学习、元学习、度量学习等学习有判别力的、可区分性的真假虹膜特征表示;d) 研究开集分类或者识别(Open set classification/recognition) 方法[148];e) 研究更有效的异常检测方法.

2) 虹膜呈现攻击检测与虹膜识别的集成部署

如第1.3 节所述,当集成了虹膜呈现攻击检测功能的虹膜识别系统部署到资源受限的边缘设备、移动设备、嵌入式设备等时,在保证性能的前提下需要额外考虑虹膜呈现攻击检测模型的轻量化部署,减少设备的负载[27,145].同时,计算复杂度应该尽可能低、推理速度尽可能快,减少响应的延迟,避免影响整个识别过程的效率和用户体验.

一般来说,设计轻量级的且满足实时推理的虹膜呈现攻击检测模型主要是针对基于深度学习的方法而言,而传统方法普遍没有这方面的问题.现有的深度学习模型主要关注检测的准确性方面,而没有特别考虑模型的空间和时间复杂性.为满足上述要求,可考虑采用一些轻量级的网络结构如MobileNet[149]、EfficientNet[150]等,或者利用模型的压缩、量化、剪枝等策略提升模型的可用性.但是轻量级的模型可能会降低检测性能,因此如何对性能和复杂性之间做平衡是虹膜呈现攻击检测方法实际部署时需要首先考虑的问题.

此外,在并行集成方式中,有2 个突出问题值得深入探索: a) 统一的虹膜呈现攻击检测和虹膜识别模型.尽管Dhar 等[30]首次提出EyePAD 和Eye-PAD++验证了统一模型的有效性,但是是否有更好的模型结构仍然需要进一步研究.特别是在多任务学习范式、骨干网络等方面,需要考虑如何在一个统一的框架下分别获取针对虹膜呈现攻击检测和虹膜识别的最佳特征;是否可以利用一些最新的网络结构如视觉Transformer (Vision transformer,ViT)[118]作为统一模型的骨干网络等.b) 虹膜呈现攻击检测和虹膜识别的分数融合.应当注意的是,尽管从理论上来说,分数融合是可行的,并且在人脸[151]和指纹[152]方面均有成功实践,但是目前我们并未发现在虹膜上的文献记载.因此进一步地探索分数融合在虹膜上的可行性是未来可能的一个研究方向,其中选择一个合适的结合指标是关键,元学习[153]或许是一种有效的解决方案.

3) 可信性

得益于高度的准确性和便利性,包括虹膜识别在内的生物特征识别系统在一定程度上取代了传统密码等身份验证方式,然而公众对生物特征识别系统的可信性方面仍然保有怀疑和强烈关切,因此持续的研究势在必行.可信性一般包括准确性、偏见与公平性、安全性、可解释性以及隐私性[27].

具体而言,偏见与公平性是指生物特征识别系统是否在所有人口统计学群体中都能正常工作,以及系统在一个人口统计学群体中的某类属性上是否有偏差,例如年龄、性别、种族等.例如文献[154]分析了在人脸呈现攻击检测中的公平性问题;一些人脸识别模型已经被证实存在人口统计学偏差[155-157].同样地,在虹膜呈现攻击检测中,Fang等[23]对人口统计学中的性别进行了研究和分析,通过实验发现,男性和女性样本之间的算法性能和结果存在显著差异,且男性的错误率低于女性,揭示了女性受到虹膜呈现攻击检测系统的保护可能不足.然而Agarwal 等[146]通过一个更大规模的、性别均衡的、在受控室内环境和非受控室外环境下采集的数据集分析发现,造成虹膜呈现攻击检测算法性别偏差的原因可能不在于性别本身,而在于图像采集环境等其他因素.未来可能的研究方向包括: a) 调研虹膜呈现攻击检测算法在其他人口统计学属性,如眼睛颜色、种族等的偏差及其原因;b) 提出有效的方法显著缓解人工统计学的偏差问题,例如可以考虑在发展虹膜呈现攻击检测算法的时候将学习到的中间特征进行解耦,仅依赖与人工统计学信息无关的特征进行真假分类,或者学习人工统计学中无偏的中间态,将其作为媒介缓解算法对输入的偏差等.

如第6 节所述,目前已经有一些虹膜呈现攻击检测的工作[20-22]通过t-SNE 和Grad-CAM/Score-CAM 等可视化技术研究了算法的可解释性,然而目前的解释仍然比较主观和被动,原因可能是缺乏准确的逐像素呈现攻击标注作为评估和发展可解释的虹膜呈现攻击检测方法的基础.此外,一些更先进的特征可视化方法亟待提出以更好地帮助分析、调试和改进检测算法.

目前虹膜数据集体量小,主要原因是数据采集复杂、成本较高,其中近红外图像需要使用专用的传感器采集,另外志愿者出于隐私保护的角度也不愿意配合采集.当前许多大型人脸数据集开始不对外开放,虽然虹膜图像不像人脸图像的身份辨识度高,但隐私问题依然存在.欧盟在2016 年出台了《通用数据保护条例》 (General data protection regulation,GDPR),其中规范了数据保护和隐私的条例,并涉及到了欧洲境外的个人数据出口.受此影响,一些虹膜数据集不再开源,例如LivDet-Iris系列竞赛中的Warsaw 数据集已经不再公开释放.因此,如何在保护虹膜数据的用户隐私的前提下设计虹膜呈现攻击检测方法是一个值得思考的问题,一些最新的技术如联邦学习[158]等是有潜力的探索方向.

4) 开源方法、大规模开放数据集和算法评估

如第3.6 节所述,当前开源的虹膜呈现攻击检测方法偏少,导致研究者很难对现有的模型进行有效分析,从而去升级改造模型;同时另一方面,在进行方法比较时,也很难做到公平性.基于这些考虑,鼓励研究者开源检测算法,提高算法的可复现性和可重用性,促进虹膜呈现攻击检测领域的良性发展[16-17].

从第4 节及表4 可以看出,现有的虹膜呈现攻击检测开放数据集存在攻击类型单一、攻击样本数量较少、采集环境不够多样化、缺乏人口统计学属性等问题,影响了虹膜呈现攻击检测模型的准确性、泛化性和公平性等.为此,需要进一步地在多样化的采集环境下收集大规模的、涵盖全面的攻击类型的、具有丰富人口统计学属性的数据集[146],并在保护用户隐私的前提下进行开放.进一步地,从系统集成的角度出发,如第1.3 节所述,也缺乏大规模的含有真假类别标注的虹膜识别数据集以方便开发和评估统一的虹膜呈现攻击检测和虹膜识别模型.

如第2.1 节所述,虹膜呈现攻击检测问题已经有了统一的评价指标,然而对于最近新兴的虹膜呈现攻击检测和虹膜识别联合建模问题,仍然需要进一步地提炼和总结评价指标,其中文献[30,152]可作为研究基础.此外,也缺乏公开的基准以方便算法比较,因此本文并没有列举检测性能排行榜.当前LivDet-Iris 系列竞赛是唯一公开公正的算法评估平台,特别是LivDet-Iris 2020 比赛[15]依托BEAT 开源平台可以长期评测提交检测算法的性能.然而从现有发表文献来看,近些年的研究者很少使用该平台,主要原因在于一方面该平台使用起来不够友好,另外一方面,LivDet-Iris 2020 比赛没有提供训练集.因此鼓励研究者开发更大规模、用户友好、包含统一训练和测试集以及提供若干基线模型的开放基准评测平台[17],及时反映虹膜呈现攻击检测领域的最新发展成果.

5) 合成虹膜

当前合成虹膜已经得到了初步研究,从视觉效果上看,合成虹膜与真实虹膜之间已经难以用肉眼去分辨,因此合成虹膜被作为一种呈现攻击工具.在一些场景下,合成虹膜也被用来替代真实虹膜训练虹膜识别模型,以缓解对用户隐私等问题的担忧.

未来合成虹膜可能的研究方向之一是持续地加强“矛”与“盾”的对抗研究,一方面研究各种最新的生成方法如扩散模型(Diffusion model)[159]以生成大规模的、高质量的、多样化的合成虹膜图像以欺骗检测系统,其中可考虑创建新类型的合成虹膜,如隐形眼镜、尸体虹膜等以及在此基础上的打印合成虹膜、屏显合成虹膜等[8].从集成部署的角度出发,在合成攻击虹膜的同时保持身份信息也是重要的.另一方面,提出更鲁棒有效的检测算法以更好地检测合成虹膜,从而提升检测算法的泛化性.

猜你喜欢
虹膜纹理特征
双眼虹膜劈裂症一例
基于BM3D的复杂纹理区域图像去噪
如何表达“特征”
不忠诚的四个特征
使用纹理叠加添加艺术画特效
“刷眼”如何开启孩子回家之门
抓住特征巧观察
TEXTURE ON TEXTURE质地上的纹理
消除凹凸纹理有妙招!
虹膜识别技术在公安领域中的应用思考