一种鲁棒性听觉特征的说话人确认系统

2019-06-25 10:00文思进
无线电工程 2019年7期
关键词:特征参数鲁棒性信噪比

文思进,高 勇

(四川大学 电子信息学院,四川 成都 610065)

0 引言

在实际应用中,说话人确认系统会因为采集设备干扰、环境噪声以及说话人情绪影响等造成性能急剧下降。特征提取是说话人确认系统中的关键步骤,合适的声纹特征能有效地提升系统性能。

梅尔倒谱系数[1](MFCC)和基于Gammatone滤波器提取的GFCC特征参数[2-3]是目前说话人确认中最常见的鲁棒性特征参数。上述2种参数已部分考虑人耳的听觉感知特性,在无噪声污染环境下表现良好,但在低信噪比情况下性能严重下降。为解决该问题,考虑利用能较好地模拟人耳听觉特性的Gammachirp滤波器[4]进行特征提取。近年来,Ben Abdallah[5],M Bouchamekh[6]等将Gammachirp滤波器应用于说话人辨认系统,取得了良好的识别效果。但鲜有利用该滤波器提取听觉特征参数并运用到说话人确认系统中的研究。

本文通过Gammachirp滤波器组提取出一种鲁棒性听觉特征参数GCFC,对其噪声鲁棒性进行了分析;研究了不同噪声环境下GCFC的系统确认性能。实验表明,与单纯的MFCC及GFCC特征参数相比,在低信噪比条件下,GCFC听觉特征参数更具噪声鲁棒性和适应性,使得确认系统准确率有明显的改善。

1 说话人确认系统

1.1 说话人确认系统构成

本文采用基于GMM-UBM[7]的说话人确认系统,主要由3部分组成:通用背景模型(UBM)训练、说话人模型自适应以及说话人确认测试。

通用背景模型训练:按照一定的男女比例选取大量非目标说话人的纯净语音,进行声纹特征提取后利用最大期望算法(EM)进行迭代训练,最后得到UBM模型。UBM模型本质上为高斯混合模型,由目标说话人以外的大量说话人组合并训练而成,代表了与目标说话人无关的特征分布。

说话人模型自适应:将提取特征后的目标说话人训练语音在UBM模型上自适应使用最大后验准则(MAP)来得到目标说话人模型,即得到目标说话人的语音特征分布。

说话人确认测试:将每个说话人的对数似然比得分经过评分规整之后,和阈值进行比较,并进行判决。如果得分大于阈值,则判决测试语音为真实说话人,小于阈值则判决为冒充说话人。

1.2 说话人确认系统性能评价

美国国家标准及技术署(National Institute of Standard and Technology,NIST)在说话人确认测评中采用检测错误权衡(Detection Error Tradeoff,DET)曲线表示确认系统错误接受率(False Acceptance Rate,FAR)和错误拒绝率(False Rejection Rate,FRR)之间的权衡关系[8],并以此来评价说话人确认系统的性能,反映系统整体识别能力。这是因为说话人确认中存在2类识别错误:冒充人被接受的错误和真实说话人被拒绝的错误,分别用FAR和FRR表示。二者定义如下:

(1)

(2)

此外,等错误率(Equal Error Rate,EER)和检测代价函数(Detection Cost Function,DCF)也是衡量说话人确认系统的重要指标。其中,EER指FAR与FRR相等时所对应的错误概率。DCF指在固定判决门限前提下系统的检测代价,表达式定义如下:

DCF=CFAPnonFAR+CFRPtarFRR,

(3)

式中,CFA和CFR分别代表错误接受和错误拒绝的代价因子;Pnon和Ptar分别代表冒充说话人和真实说话人的先验概率。在NIST测评中,代价因子和先验概率是固定的:CFA=1,CFR=10,Ptar=0.01,Pnon=1-Ptar。由式(3)可知,通过改变判决门限可使检测代价函数达到最小,此时形成了最小检测代价(MinDCF)。MinDCF是NIST说话人确认测评中最常用的评价指标之一。

2 基于Gammachirp滤波器的鲁棒性听觉 特征提取

2.1 Gammachirp滤波器

Gammachirp滤波器属于非线性滤波器的一种,在拟合人耳听觉特性上效果明显,被看作是Gammatone滤波器的推广和改进。Gammachirp滤波器引入了耳蜗滤波器的非对称性和强度依赖性特性,可以很好地模拟人耳耳蜗的频率选择性,其时域脉冲响应表达式为[9]:

gc(t)=atn-1exp(-2πbERB(fr)t)·

exp(j2πfrt+jclnt+jcfφ)),t>0,

(4)

式中,a为振幅;φ为初始相位;n,b为描述gamma函数分布包络的参数,通常n取4,b取1.109;c为啁啾因子(Chirp Factor),会随声压变化而变化;fr为渐近频率;ERB(fr)代表中心频率为fr的等效矩形带宽(ERB)的值,可由式(5)得到:

ERB(fr)=24.7+0.108fr。

(5)

Gmmachirp函数的傅里叶变换推导如下:

(6)

(7)

(8)

Gc(f)=GT(f)·HA(f)。

(9)

因此,Gammachirp函数的幅度谱可表示为[10]:

(10)

式中,|HA(f)|=ecθ(f),当啁啾因子c=0时,|HA(f)|为单位阶跃函数,此时Gammachirp函数退化为Gammatone函数;当c>0时,|HA(f)|表现为高通滤波器;而当c<0时,|HA(f)|表现为低通滤波器。

文献[11]指出,Gammachirp滤波器组由Gammatone滤波器组、低通非对称补偿滤波器组以及高通非对称补偿滤波器组级联而成,基本结构如图1所示。其中,能够进行声压估计的参数控制器控制了高通非对称补偿滤波器组的输出。结合式(10)可知,Gammachirp滤波器可看作由Gammatone滤波器|GT(f)|与非对称函数|HA(f)|共同作用产生。图1中2个级联的非对称滤波器组则共同实现了非对称函数|HA(f)|的功能。|HA(f)|即为ecθ(f),受啁啾因子c的影响。啁啾因子c与声压级Ps呈线性关系,具体如式(11)所示。通过Ps实时调整c值可实现Gammachirp滤波器组对信号的强度依赖性[12]。

c=3.38+0.107Ps。

(11)

图1 Gammachirp滤波器组基本结构

2.2 基于Gammachirp滤波器的鲁棒性听觉特征提取方法

本文采用24个通道数的Gammachirp滤波器组拟合人耳听觉特点,提取了基于Gammachirp滤波器的鲁棒听觉特征参数,特征参数记为GCFC。提取流程如图2所示。

图2 GCFC特征参数提取流程

图2中,输入语音信号经过预加重、分帧、加窗以及端点检测等预处理后,进行快速傅里叶变换(FFT),将Gammachirp滤波器组的频率响应进行等响度变换[13]后,再利用Gammachirp滤波器组对信号进行子带滤波,然后对每个滤波器的输出做对数非线性压缩,经过相对谱滤波(RASTA)[14]和离散余弦变换(DCT),最后再经过半升正弦函数倒谱提升以及倒谱均值减-倒谱方差归一化(CMS-CVN)[15]处理,得到基于Gammachirp滤波器的GCFC听觉特征参数。

在特征参数GCFC的提取过程中,对Gammachirp滤波器的频率响应进行等响度变换可模拟人耳对不同频率所感受到的响度。对听觉特点的研究表明,耳蜗具有非线性特点,反映了人耳在接收带噪信号时的处理机制。非线性压缩基于人耳的强度感知性,使得听觉模型能在最大限度上拟合人耳的强度感知性。因此,对每个滤波器的输出做对数压缩,以此来拟合人耳听觉模型处理语音信号的非线性特性;此外,为削弱传输信道对语音信号的影响,补偿信道卷积噪声在倒谱域产生的偏差,提高听觉特征参数的稳健性,对信号进行了RASTA滤波和CMS-CVN处理。

3 仿真实验

3.1 实验设计

实验数据选自CCB数据库中电话信道下的纯净语音,语音采样率为8 kHz,16 bit,单声道录音。从中选取男女各60人,共计120人训练UBM模型。另外选取男女各20人,共计40人训练每个目标说话人的GMM模型,每人训练语音长度为34 s,再取每人与文本无关的5条5 s语音进行说话人确认测试。噪声数据取自NOISEX-92噪声数据库[16],所有带噪语音均在原有语音信号上叠加一定信噪比噪声得到。

本文在仿真实验中对输入系统的语音信号进行了预加重,预加重系数为0.97,以帧长256个采样点进行分帧,使用汉明窗进行加窗处理。每帧语音提取48维GCFC参数,并对系统最后得分采用测试规整(Test Norrmalization,Tnorm)[17]的评分规整方式。实验仿真系统基于GMM-UBM模型,模型混合数为512,目标说话人的高斯混合数与UBM相同。

3.2 GCFC参数的有效性测试

实验1:为验证本文所提取的听觉特征参数GCFC在无噪声污染条件下对说话人确认系统的有效性,采用40人(男女比例1∶1)的纯净语音进行实验。分别使用24个通道数的Mel滤波器组、Gammatone滤波器组和Gammachirp滤波器组提取听觉特征参数MFCC、GFCC,GCFC,特征参数维度均为48维。实验结果如表1所列。

表1 无噪环境下不同特征参数的系统EER和MinDCF

噪声类型特征参数EERMinDCFMFCC0.071 90.060 6cleanGFCC0.068 80.056 7GCFC0.065 00.054 9

从表1可知,在无噪声条件下的说话人确认中,GCFC特征参数的系统确认性能表现最好,EER和MinDCF均低于其余特征参数。与MFCC特征参数相比,EER降低了9.6%,计算过程如式(12)所示,MinDCF降低了9.4%;与GFCC特征参数相比,EER与MinDCF分别降低了5.5%和3.2%。由此可看出,纯净语音条件下,GCFC听觉特征参数在说话人确认系统中的应用是可行有效的,可以满足实际应用场景的要求。

(12)

3.3 GCFC参数的抗噪能力测试

实验2:为测试噪声环境下本文所提取的听觉特征参数GCFC在说话人确认系统中的抗噪能力,将实验1中提取的MFCC,GFCC,GCFC3个特征参数在同等噪声条件下进行实验。噪声类型包括粉红噪声(Pink Noise)、白噪声(White Noise)及f16座舱噪声(f16 Cockpit Noise)。含噪语音的信噪比(SNR)为-10 dB,其余实验条件同实验1。实验结果如图3~图5以及表2所示。

图3 pink噪声(-10 dB)下的DET曲线

图4 white噪声(-10 dB)下的DET曲线

图5 f16噪声(-10 dB)下的DET曲线

表2 噪声环境下(-10 dB)不同特征参数的系统EER和MinDCF

噪声类型特征参数EERMinDCFMFCC0.425 90.410 5pink噪声GFCC0.425 00.406 8GCFC0.267 50.265 8MFCC0.40490.3896white噪声GFCC0.392 50.372 9GCFC0.375 50.362 4MFCC0.426 50.415 5f16噪声GFCC0.436 20.422 8GCFC0.275 60.268 2

从图3~图5可知,特征参数GCFC的检测错误权衡(DET)曲线整体比特征参数MFCC和GFCC更优,错误接受率(FAR)和错误拒绝率(FRR)均更低、更接近坐标轴,说明系统的确认性能更好。

从表2可知,与MFCC和GFCC两种特征参数相比,本文提取的GCFC特征参数在不同噪声环境下的EER和MinDCF均更低。在pink,white,f16三种噪声环境下,GCFC特征参数的平均EER为0.306 2,平均MinDCF为0.298 8。与MFCC及GFCC两种特征参数相比,平均EER分别降低了26.9%和26.7%;平均MinDCF分别降低了26.2%和25.4%。结果说明基于Gammachirp滤波器提取的GCFC参数增强了噪声环境下,尤其是低信噪比情况下说话人确认系统的鲁棒性,能够有效提高系统确认准确率。

4 结束语

Gammachirp滤波器在模拟人耳耳蜗基底膜特性方面表现良好,因此,本文将Gammachirp滤波器用于说话人确认系统的特征提取中,并在提取过程中应用了等响度变换、RASTA滤波和倒谱均值减-倒谱均值归一化(CMS-CVN)等技术,得到GCFC听觉特征参数。本文先在无噪声污染条件下进行GCFC参数的有效性实验,然后在不同噪声的低信噪比环境下进行GCFC参数的鲁棒性实验,并与MFCC和GFCC特征参数进行了对比。实验结果表明,以GCFC参数为说话人听觉特征的说话人确认系统整体性能更好,噪声鲁棒性更强,在低信噪比环境下系统确认准确率更高,同时对于不同的噪声环境也更具适应性。

猜你喜欢
特征参数鲁棒性信噪比
基于视频图像序列的船用雷达目标检测和目标特征参数提取
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
基于经验分布函数快速收敛的信噪比估计器
武汉轨道交通重点车站识别及网络鲁棒性研究
融合LPCC和MFCC的支持向量机OSAHS鼾声识别
自跟踪接收机互相关法性能分析
基于深度学习的无人机数据链信噪比估计算法
说话人识别特征参数MFCC的提取与分析
一种基于三维小波变换的鲁棒视频水印方案
电子节气门非线性控制策略