双谱图在语音分析中的应用

2018-01-27 01:41周丽红雷金辉

传感器与微系统 2018年2期

周丽红, 雷金辉

(昆明理工大学信息工程与自动化学院，云南昆明 650500)

0 引言

目前，语音识别技术作为信息社会朝着智能化和自动化方向发展的关键技术之一，具有重要的研究意义和实用价值。经过近50年的艰苦探索和研究，语音识别技术研究获得了极大的发展，其中,有些比较成熟的技术已经逐步应用于日常生活中。但总体来说，语音识别在研究和实用化方而的难度还比较大。由于每个人发出的语音中均包含有各自的语音信号特征，语音信号也具有和其他信号共有的一些特征参数，比如周期、频率、能量等[1]。

为了更直观地对这些拥有共同特征参数的不同说话者进行语音识别，本文采用了增强实现(augmented reality,AR)参数模型双谱估计计算语音信号的双谱。利用双谱进行语音信息的分析与研究，语音信息特征可以在双谱图上得以体现，使得语音信息特征的研究更加直观，对于语音辨识具有一定效果。

1 数据采集

本文使用Windows附件的录音机程序驱动声片采集、播放和简单语音信号处理[2]。语音录音在相对安静的环境中进行，不掺杂外来噪音，实验人员均在语速和缓、心情平稳下录制语音。为了清晰地阐明对语音信号进行频谱分析，实验对象直接录制一段语音，并保存为.WAV格式文件，供MATLAB相关函数直接读取、写入或播放。最后使用MATLAB读取录制的语音文件的数据进行处理、加工。

如表1，本文设置了不同地域、不同性别以及不同语言类型3个变量，共采集了4次语音数据，参与人年龄在18～20岁之间，共有80人参与录制语音，本文选取16个双谱图特征明显者进行图谱分析。

2 AR模型与双谱原理

在语音信息特征分析中，将语音信号看作白噪声激励线性时不变系统的结果，如图1所示。

表1 4次实验采集表

图1 系统模型

设输出{y(t)}为零均值的k阶平稳随机过程，则k阶累积量ck,y(τ1,…,τk-1)定义为[3]

ck,y(τ1,…,τk-1)=cum{y(t),y(t+τ1),…,y(t+τk-1)}

(1)

根据由Bartlett,Brilinger和Rosenblatt推导出的BBR公式，对于稳定的线性系统H(z)，设驱动信号a(t)为独立同分布的非高斯白噪声时，考虑因果关系的非最小相位系统，则输出y(t)的累积量函数为

h(t+τ3)

(2)

式中k为累积量的阶数；τ为滞后量；h(t)为系统的单位脉冲响应函数。

声带振动的气流激励声道之后产生出语音,输出的随机信号中含有系统的丰富动态信息，可以建立AR模型

(3)

式中α(i),i=1,2,…,p为自回归系数；p为自回模型的阶数。

根据定义，随机量y(t)的双谱为3阶矩的二维傅里叶(Fourier)变换三阶谱。双谱不仅能够提取信号的幅值信息，而且能反映系统的相位信息，二次非线性相位耦合信息[4]。设高阶累积量ck，y(τ1，…，τk-1)绝对可和

(4)

则k阶累积量谱定义为k阶累积量的k-1维Fourier变换，即

τk-1)·exp[-j(ω1τ1+ω2τ2+…+ωk-1τk-1)]

=γa,kH(ω1)H(ω2)…H(ωk-1)

H*[ω1+ω2+…+ωk-1]

(5)

式中ω为频率；H(ω)为系统的传递函数；H*(ω)为H(ω)的共轭函数；Sy,k(ω1,ω2,…,ωk-1)为k阶谱，亦称为k阶累积量谱。当k=2，3，4时，分别为功率谱P(ω)、双谱B(ω1,ω2)和三谱T(ω1,ω2,ω3)。因此，双谱可以表示为[5～7]

B(ω1,ω2)=γ3aH(ω1)H(ω2)H*(ω1+ω2)

(6)

3 实验数据分析

图2为实验一中男女生的双谱图，4人均为云南省昆明市人。从男生的双谱图可以看出，2人的双谱图均存在非常明显的谱峰，且谱峰较为清晰，图像比较集中，谱峰幅值层次非常清楚，主要集中在对角区域，即(50，50)和(200，200)附近，而另外一个对角线区域却未出现明显的谱峰，中间部分亦无较为明显的谱峰，其谱峰底部较为细小。从女生的双谱图可以看出，双谱图底部均较为粗大，波峰个数较多，较杂，图形更为紊乱，且除了一个对角线上出现较为明显的谱峰外，另一对角线上(50，200)和(200，50)处也出现了非常明显的谱峰。另外，其谱峰覆盖频率较广，几乎覆盖整个图谱区域。

图2 男女生的语音双谱图

图3 不同语言类型语音双谱图

图3为具有不同语言类型人的双谱图，2人均为云南省昆明人，且均为男生。普通话时的双谱图可以看出，双谱图谱峰明显，底部较细小，且谱峰层次清晰，较为有序。谱峰主要集中在(50，50)和(200，200)附近，除对角线出现明显谱峰外，其余各处也出现少许谱峰，但并不明显。07#和08#图为讲方言时的相应双谱图，其图形紊乱，谱峰较多，底部粗大，谱峰覆盖频率面积广，与第一组中的双谱图差异明显。

图4 不同地域人讲普通话时的语音双谱图

图4为4位不同地域人讲普通话时的语音双谱图，均为男生。可以看出，4人的语音双谱图差别较大。

图5为两种性别、不同语言(方言)、不同地域人的语音双谱图，4人语音双谱图中，13#图4中大的谱峰较少，底部也很细小，14#图谱峰频率覆盖面均很大，出现很多谱峰，且相对杂乱，15#图的谱峰底部较粗，16#图的峰值主要集中在(125,125)附近，即双谱图中心位置，16#图较15#图谱峰宽很多。

图5 不同性别与语言(方言)及地域的语音双谱图

从上述实验可以看出:

1)实验一中2个男生的语音双谱图较为相似，但男女生的2组语音双谱图差别明显。故从实验一2组图可以看出男生和女生的语音可以由双谱图很容易区分。实验二中不同语言类型人的两组图语音双谱图差别较大。实验三与实验四中具有各自特征人的双谱图亦较易辨别。

2)由本实验采集的数据情况看，每个人的语音双谱图与其性别、语言和地域相关，不同之处越多，其双谱图越容易区分。

3)双谱图更直观地表达了峰值所对应的频率位置，清晰表明个人语音双谱图的特征。双谱图可以有效辨别每人的语音特色，进一步验证了双谱图在语音分析领域的重要作用。

通过双谱图中体现的信息进行分析，可以辨识图谱中的语音特征。由于能够影响语音双谱图的因素很多，语音中的任何一个部分都会引起双谱图的变化，对于语音特征辨识的判断比较复杂。因此，语音的识别仍有待于进一步的研究。

4 结论

语音双谱图之所以有很大不同，是因为受各方面因素的影响，不同因素越多，双谱图差别越明显。不论何种语音，因素不同，谱峰位置也不同，这是由于频率成分以及各频率分量之间发生二次相位耦合的情况不同而反映出的必然结果。因此，从双谱三维图形上的特征频率处表现出的幅值特性上能有效地区别不同说话人的类型，方法能大幅提高语音辨别的准确性，且对语音变化很敏感，对处理语音信号有一定效果，为语音辨识提供了一种可供选择的方法。

[1] 张节.语音信号的预处理和特征提取技术[J].电脑知识与技术,2009,22(5)：6280-6282.

[2] 赵淑敏.基于MATLAB实现对语音信号分析[J].信息通信,2010(4):15-17.

[3] 张贤达.时间序列分析[M].北京:清华大学出版社,1996:4.

[4] 蒋雨燕.基于高阶累积量AR模型参数的液压阀故障识别[D].厦门:厦门大学,2009.

[5] 张贤达.现代信号处理[M].北京,清华大学出社,1995:90-93,274-280.

[6] Raghuveer M R.Time-domain approaches to quadratic phase coupling estimation [J].IEEE Transaction on Automatic Control,1990,35(1):48-56.

[7] Collis W B,White P R,Hammond J K.Higher-order spectra:The bispectrum and trispectrum[J].Mechanical Systems and Signal Processing,1998,12(3):375-394.