基于随机映射的声纹模板保护方法*

2013-08-19 02:44朱华虹贺前华李艳雄张雪源
关键词:声纹矢量语音

朱华虹 贺前华 李艳雄 张雪源

(华南理工大学 电子与信息学院,广东 广州 510640)

近年来,生物识别技术的广泛应用对生物特征模板的存储和传输安全提出了较高要求.生物特征模板保护旨在解决特征模板的可撤销性、多样性、安全性、性能保持等问题[1],但由于生物特征数据的模糊性和生物识别技术的差异性[2],尚未有任何一种算法能够满足所有生物特征模板保护的要求.

目前,指纹、脸型、虹膜等图像特征的模板保护算法研究较多[3-5],基于矢量量化(VQ)声纹认证系统的模板保护算法也相继提出.文献[6]提出了传统密码体制下的声纹模板保护方法,通过改进数字签名方案并与认证协议相融合实现声纹特征的保护,其缺点是模板库中的声纹特征仍然是原始特征,无法保证存储的安全性.文献[7]将经典的模糊保险箱思想应用于声纹模板保护,使用杂凑点达到隐藏真实点的目的,此方法的缺陷是安全性依赖于杂凑点的数量,导致存储效率不高、交叉匹配等问题.基于多子空间映射的可撤销声纹模板保护方法[8]将随机映射应用于基于VQ 的声纹认证系统,通过分析变换前后特征点与特征点、特征点与码本的距离证明方法的有效性,但缺乏安全性与身份认证性能保持的深入分析和实验证明.

鉴于VQ 适用于小语料库的说话人识别任务,而目前主流的文本无关说话人识别模型为高斯混合模型(GMM),因此,文中在传统声纹认证系统基础上采用随机映射更为通用的形式化表示,提出一种可撤销的声纹模板保护方法,并就方法的安全性和认证性能保持之间的关系进行研究.最后通过仿真实验验证了方法的有效性.

1 可撤销的声纹模板保护方案

1.1 随机映射的形式化表示

文献[8]采用式(1)将原始特征x 随机映射为变换后的特征y,并通过分析变换前后特征点间的欧氏距离,以其不变来证明身份认证性能得到保持.

式中:R 为正交矩阵,R∈d×n(d =n),d、n 为随机矩阵的行列数.

模板保护技术要求在提高安全性的同时不会恶化身份认证性能[9],但实际应用中安全性和身份认证性能保持往往很难同时满足.对于随机映射来说,降维是提高安全性的有效途径[10].为了便于后文对算法的安全性和认证性能进行综合评价,定义通用形式化表示如下:

相关研究[11]表明,元素服从高斯分布的随机矩阵R 具有正交性,尤其在高维空间中,R 中元素服从高斯分布与正交是近似统一的.在高维空间或满足Johnson-Lindenstrauss (JL)定理降维下限的条件下,可近似认为单位矩阵[10].特别地,当d=n 时,式(2)转化为式(1).

1.2 基于随机映射的声纹认证系统实现

GMM 虽然具有识别效果好、鲁棒性高等特点,但其识别精度对训练数据依赖性大,如果将变换后的声纹特征直接存储为模板,则认证时进行模型训练的时间较长,无法满足应用要求.因此,所提认证系统在模板库中存储的不是变换后的声纹特征而是训练获得的GMM 模型参数,以提高认证的实时性.图1为文中提出的基于GMM 声纹认证系统的模板保护算法框图.在注册阶段,语音经过预处理提取原始美尔频率倒谱系数(MFCC)特征,并将原始特征映射到随机空间后进行GMM 模型学习,存储模型参数作为模板;在认证阶段,提取的MFCC 特征和相同的随机矩阵相乘后再与模型库进行匹配.具体步骤如下.

图1 声纹认证系统框图Fig.1 Block diagram of voiceprint verification system

注册阶段:

(1)提取注册语音的MFCC 特征序列Xk,Xk=为d 维语音特征矢量.

(3)使用Yk训练GMM 模型,存储模型参数作为模板.

认证阶段:

(1)提取待认证语音的MFCC 特征序列Xq,为d 维语音特征矢量;

(2)使用注册阶段的矩阵R,用式(2)对声纹矢量进行变换得到

(3)使用Yq进行模型匹配,并决策输出.

训练GMM 需要较充分的训练语音,如果在实际应用中训练数据较少,通用的做法是采用GMMUBM 框架[12],即利用所有说话人的语音训练通用背景模型(UBM),然后根据目标说话人的数据从UBM 自适应获得目标说话人模型.优化GMM 性能的算法比较多[13],鉴于文中重点研究随机映射对于传统GMM 声纹模板的保护有效性,故所提算法中模型训练主要由目标说话人的语音单独训练得到.根据随机映射的原理[10],对于GMM-UBM 框架,文中也可将所有说话人的数据映射至与目标说话人相同的随机空间中进行训练,但应用中目标说话人各自所映射的空间不同,故需要在不同变换域中进行UBM 训练,并在目标说话人对应的变换域中进行识别.

研究[9]表明,要满足所有生物特征模板保护的要求是很困难的.在实际应用中,这些要求往往相互制约,因此需要根据相应的应用场合作出合理的选择.下面就所提算法在身份认证性能保持、安全性、计算复杂度等方面进行分析.

2 算法分析

2.1 身份认证性能分析

基于GMM 的声纹认证系统中认证话音与模型的匹配程度主要通过计算声纹矢量和GMM 模型的对数似然度获得[14],如果在变换域声纹特征的统计特性没有改变,那么识别准确性不变,即系统的身份认证性能可以保持.首先分析d=n 的条件下变换前后身份认证性能是否相等.

设 代表说话人的一组GMM 模型参数,={M,wi,Ui,Σi},其中M 为混合度,wi、Ui、Σi分别为第i 个高斯的权重、均值和协方差矩阵;'代表变换后同一说话人的GMM 模型参数,' ={M,w'i,U'i,Σ'i},其中w'i,U'i,Σ'i分别为变换后第i 个高斯的权值、均值和协方差矩阵.变换前后声纹矢量序列Xq、Yq与GMM 模型的对数似然度分别为和,其计算方法如下:

其中,

故比较式(4)、(5)是否相等需研究变换后的模型参数.声纹特征经映射后首先采用LBG 算法获得初始的聚类中心,计算初始权值、均值和方差,再使用最大期望估计(EM)算法估计模型参数.正交变换前后特征矢量之间的距离保持不变且特征矢量与码字之间距离保持不变.从几何空间上分析,即映射前后M 个类中的点集合是一致的,因而初始的权值(各个类中所包含的特征矢量的个数占总的特征矢量的百分比)也不变,而初始的均值U'i和协方差Σ'i分别变为:

其中Xl、Yl分别为变换前后第i 个高斯聚类中包含的特征矢量,m 为特征矢量个数,使用EM 算法进行迭代运算可得:

第i 个高斯的权重w'i为

第i 个高斯的均值U'i为

第i 个高斯的协方差矩阵Σ'i为

综上所述,将式(14)-(16)代入式(4)、(5),可推导出L(Xq)和L(Yq')相等,即变换前后身份认证性能不变.但此时变换前后的原始特征或模型参数存在一一对应关系,R 一旦泄漏就可破解所有原始数据.结合后续安全性的分析,需要研究采用降维进一步提高安全性,同时保持身份认证性能的可能性.根据JL 定理[15],当满足降维下限时欧氏空间中两点映射至低维空间,其距离变化保持在一个小范围内是可能的,同理GMM 均值间的距离也可以近似保持.另一方面,文献[16]指出,d空间中的任何高斯分布映射至n 维子空间时,其超椭球体的离心率有可能变小.为便于分析,文中定义某个高斯分量的原始协方差参数间满足β1≤β2≤…≤βd,可得变换前的离心率为变换后的协方差参数为可得:

其中rki∈R.可见变换后超椭球体的离心率小于等于从而更有利于聚类.故GMM 的认证性能相对于只考虑矢量间距离差异的算法(如VQ)可以保持得更好.

2.2 安全性分析

生物特征模板保护对安全性的要求体现在模板的变换或加密满足不可逆性.不可逆性具有两点重要特征[1],一是识别在变换域进行;二是即使模板被盗(泄漏),敌手也无法获得原始数据.文中算法将声纹特征映射至变换域进行训练,获得的模型参数和识别也均在变换域中,满足不可逆性的第1 个特征.另一方面,所提方法的安全参数依赖于随机矩阵,如果模板被盗,敌手在没有获得随机矩阵的条件下很难获取原始数据,满足不可逆性的第2 个特征.因此,该条件下,方法满足不可逆性.进一步放宽限制条件,假设敌手获得了随机矩阵R,根据QR 分解和不定方程最小二乘解的原理,只有降低R 的维度,不定方程y =RTx 才存在多个解而无法精确获得所有原始数据.下面分析这种情况下敌手破解原始数据的可能性.

定理1 如果矩阵Q 满足“l-安全”[17],则从Q 中选择l+1 个非零行向量组成矩阵Λ,如果这些行向量线性无关,则线性方程组y = Λx 至少包含2l+1个变量.

证明 由于Λ 中l+1 个向量线性无关,采用消元法求解方程组的解,可获得阶梯形矩阵,Λ 中l+1阶子式Dl+1=I.为了方便叙述,不妨设Dl+1在Λ 的左上角,表示为

根据矩阵Q 满足“l-安全”的定义可知,Q 的每行中至少有l+1 个非零元素,即Q 中除了Dl+1外的子矩阵中每行至少还有l 个非零元素.因此,每行中的总元素为l+1 +l=2l+1.证毕.

从定理1 可知,当d ≥2l +1 时,线性方程组y=Λx 无法求解向量中任一元素.令n =l +1,即当时,x 中的任一元素都无法精确求出.即使R 泄漏,也无法通过逆变换求解原始模板,满足无条件不可逆性[8],即获得保护性能的上界.

2.3 计算复杂度分析

文中提出的方法需要将原始数据先映射至随机空间再进行训练和识别.相对于传统的声纹认证系统,计算复杂度的增加主要在于注册和认证阶段需将原始特征进行随机变换,而此后在变换域中的模型训练和识别与传统方法是相同的.因此,文中只需分析特征变换产生的新增计算复杂度.对于长度为p 的d 维语音特征矢量,进行随机变换(R∈d×n,d≥n)的计算复杂度为O(dnp).如果采用GMMUBM 框架,还需增加对所有说话人的声纹特征(长度为p'的d 维语音特征矢量)进行变换的计算复杂度O(dnp').如果采用降维(d >n)提高安全性,则还能进一步降低计算复杂度.

3 实验结果与分析

实验使用863 汉语普通话连续语音识别训练库进行Matlab 仿真,该语料库共有80 个说话人(男女各40 人),其中每人各有1560 条不同文本内容的语音[8].所有语音是经过挑选的标准普通话发音人在专业录音环境下录制,采用高质量16 kHz 采样、16位量化精度、单声道WAV 格式存储.在实验中,随机选取每人包含不同文本内容的500 条训练语音作为训练集,每条训练语音用Cooledit Pro 2.0 去静音后的长度为4~10 s,总长度约为1 h.从剩余的语音中选取长度为1~2 min 的语音作为测试集,平均每人85 条.特征采用典型的24 阶MFCC 特征,对语音进行分帧处理,帧长32 ms,帧移16 ms.

首先研究文中提出的随机映射方法对身份认证性能的影响.文中采用误识率(FAR)和识真率(GAR)作为评价认证性能的指标[10].由于模板保护技术要求的特殊性,一般要求FAR 极低才能够达到有效保护模板的目的[9].表1 示出了不同映射条件下,变换前后各GMM 混合度的认证性能(FAR 均为0.62%下的GAR),其中当混合度为2 048 时,采用GMM-UBM 框架.由于文中重点研究随机映射对传统GMM 声纹模板保护的有效性,故在此只初步给出GMM-UBM 在混合度为2048 时的认证性能.加有利于聚类学习,因此认证性能可以得到一定的保持.实验进一步验证了不同混合度下降维前后各高斯分量对应的离心率变化情况,如图2 所示;总体上降维后的离心率包络均小于原始维度的离心率包络,证明了理论分析的正确性.

表1 随机映射前后各GMM 混合度下的系统认证性能Table 1 Verification performance of system before and after random projection with different GMM mixtures

由表1 可以看出,对于传统GMM 模型,在不同高斯混合度下,经正交变换后认证性能与映射前保持一致;当维度降为20 时,变换后各混合度下GAR的下降幅度均小于0.2%,可视为近似保持;维度降为12 时,变换后各混合度下GAR 的下降幅度均较大,在8%左右.相同映射条件下,GMM-UBM 认证性能均高于GMM 系统,其主要原因是,GMM-UBM 用大量说话人的语音训练一个稳定的高阶GMM,可以更好地拟合数据集分布,因此具有较高的性能和鲁棒性[12].

下面进一步分析文中所提方法对GMM 模板保护的有效性.表2 示出了随机映射前后各典型码本大小下VQ 算法的认证性能(FAR 均为0.62%下的GAR).当维度为20 时,变换后VQ 认证性能的下降幅度大于8%;当维度降为12 时,变换后VQ 认证性能的下降幅度超过25%,均远大于GMM 认证性能的下降幅度.可见在相同的降维条件下,GMM 的认证性能保持得更好,与第2 节中的理论分析一致:GMM 降维后离心率变小,即超椭球变得更圆从而更

表2 随机映射前后不同码本大小时VQ 算法的认证性能Table 2 Verification performance of VQ algorithm before and after random projection with different codebook sizes

图2 不同混合度降维前后各高斯分量下的椭球体离心率Fig.2 Ellipsoid’s eccentricity corresponding to different Gaussian components before and after dimensionality reduction with different mixtures

综上可知,对于GMM,当维度不变或适当降维时,认证性能可基本保持;当维度下降满足无条件不可逆时认证性能有一定下降.因此,在实际应用中需要根据不同的场景要求,在安全性和认证性能之间进行折中选择.

4 结语

文中基于随机映射的优点,结合目前主流的文本无关说话人识别模型GMM,提出了一种可撤销的声纹模板保护方法.理论分析和实验结果表明,当随机矩阵为正交矩阵或适当降维时,变换前后身份认证性能基本保持;当满足无条件不可逆时认证性能有一定的下降.所以说,没有完美的生物特征模板保护技术可以满足所有要求,需要根据相应的应用场合作出合理选择.而且GMM 的优化算法较多,随机映射对优化算法的有效性及针对优化算法的模板保护是今后研究的主要目标.

[1]Breebaart J,Yang B,Buhan-Dulman I,et al.Biometric template protection—the need for open standards[J].Datenschutz und Datensicherheit,2009,33(5):299-304.

[2]Hao F,Anderson R,Daugman J.Combining crypto with biometric effectively[J].IEEE Transactions on Computers,2006,55(9):1081-1088.

[3]Jin Z,Beng Jin Teoh A,Ong T S,et al.Fingerprint template protection with minutiae-based bit-string for security and privacy preserving[J].Expert Systems with Applications,2012,39(6):6157-6167.

[4]Lee H G,Beng Jin Teoh A,Jung H G,et al.A secure biometric discretization scheme for face template protection[J].Future Generation Computer Systems,2012,28(1):218-231.

[5]Karthik N,Anil K J,Sharath P.Fingerprint-based fuzzy vault:implementation and performance [J].IEEE Transactions on Information Forensics and Security,2007,2(4):744-757.

[6]Xu W H,He Q H,Li Y X.Cancelable voiceprint templates based on knowledge signatures[C]∥Proceedings of 2008 International Symposium on Electronic Commerce and Security.Guangzhou:IEEE,2008:412-415.

[7]Xu W H,Chen M Y.Cancelable voiceprint template based on Chaff-Points-Mixture method[C]∥Proceedings of International Conference on Computational Intelligence and Security.Suzhou:IEEE,2008:263-266.

[8]徐文华,贺前华,李韬,等.基于MRP 的可撤销模板设计及其分析[J].电子学报,2009,37(12):2792-2796.Xu Wen-hua,He Qian-hua,Li Tao,et al.Design and analysis of MRP-based cancelable template[J].Acta Electronica Sinica,2009,37(12):2792-2796.

[9]李鹏,田捷,杨鑫,等.生物特征模板保护[J].软件学报,2009,20(6):1553-1573.Li Peng,Tian Jie,Yang Xin,et al.Biometric template protection [J].Journal of Software,2009,20(6):1553-1573.

[10]Wand Y,Plataniotis K N.An analysis of random projection for changeable and privacy preserving biometric verification[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2010,40(5):1280-1293.

[11]Hecht-Nielsen R.Context vectors:general purpose approximate meaning representations self-organized from raw data [M]∥Zurada Z M.Computational Intelligence:Imitating Life.Piscataway:IEEE,1994:43-56.

[12]郭武.复杂信道下的说话人识别[D].合肥:中国科学技术大学电子工程与信息科学系,2007:27-42.

[13]何俊,李艳雄,贺前华,等.变异特征加权的异常语音说话人识别算法[J].华南理工大学学报:自然科学版,2012,40(3):106-111.He Jun,Li Yan-xiong,He Qian-hua,et al.Speaker recognition algorithm for abnormal speech based on abnormal feature weighting[J].Journal of South China University of Technology:Natural Science Edition,2012,40(3):106-111.

[14]Stolcke A,Kajarekar S S,Ferrer L,et al.Speaker recognition with session variability normalization based on MLLR adaptation transforms[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(7):1987-1998.

[15]Johnson W B,Lindenstrauss J.Extension of Lipschitz mapping into Hilbert space [J].Contemporary Mathematics,1984,26(1):189-206.

[16]Dasgupta S.Learning mixtures of Gaussians[C]∥Proceedings of IEEE Symposium on Foundations of Computer Science.New York:IEEE,1999:634-644.

[17]Du W L,Chen S G,Han Y S.Privacy-preserving multivariate statistical analysis:linear regression and classification[C]∥Proceedings of the 4th SIAM International Conference on Data Mining.Lake Buena Vista:SIAM,2004:222-233.

猜你喜欢
声纹矢量语音
矢量三角形法的应用
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
屏幕即指纹识别
基于矢量最优估计的稳健测向方法
三角形法则在动态平衡问题中的应用
基于数字水印的人脸与声纹融合识别算法
色料减色混合色矢量计算