基于非负矩阵分解的情感语音基频转换研究

2018-05-30 01:26邓叶勋
计算机工程 2018年5期
关键词:基频字典中性

邓叶勋,赵 晖

(新疆大学 信息科学与工程学院,乌鲁木齐 830046)

0 概述

语音是人机交互的重要方式之一,语音信号中除自身丰富的语言学信息外,还包括大量说话人的个性、主观感受、情感表达等超语言学信息[1]。随着语音合成技术的不断发展,未来使计算机产生能够具有人类情感的语音将成为可能。而情感语音转换的任务就是在保留基本语义和说话人信息不变的同时,将语音从一种情感状态转换为另一种情感状态[2]。

早期的语音转换采用映射码本[3]的方法,但该方法对新数据的建模能力有限,转换效果不佳。因此,基于统计方法的语音转换技术体现出其优秀性能[4-5],其中,基于高斯混合模型(Gaussian Mixture Model,GMM)的转换方法被广泛应用,其采用局部回归函数的权重和作为转换函数进行转换建模,但该模型中设置了过多的高斯核,极易产生训练数据的过拟合。基于神经网络[6]的方法通过构建一个非线性映射函数避免过拟合,但是该方法需要大量的训练数据进行参数调整,在小型语料库中使用会受限。

随着语音转换技术的日趋成熟,对情感语音转换的研究工作也有很多新尝试。文献[7]采用Pitch-Target模型参数化基频,并使用基于GMM和分类回归树(Classification and Regression Trees,CART)的基频转换方法,实现汉语中性语音至情感语音的基频转换。在汉语韵律结构中,文献[8]提出“大波浪加小波、语调加字调”的语调层次思想,文献[9]选择离散余弦变换(Discrete Cosine Transform,DCT)参数化基频,并根据层次结构特点将基频分解为短语层和音节层2个层次,然后使用基于GMM的方法分别进行转换,基于DCT的方法进行情感语音转换能够提高目标情感的力度,然而对于不同长度的层级单元,DCT系数的个数无法准确确定,对于长度较短的音节,DCT参数化时表征能力会变弱,导致各韵律层级间无法保证语音基频的自然连续性。为在语音转换过程中充分考虑语音的帧间相关性,文献[10]提出一种基于卷积非负矩阵分解的语音转换方法,该方法能较好地保存和转换语音帧间的相关性,但缺少对语音韵律结构进行建模。连续小波变换(Continuous Wavelet Transform,CWT)在语音基频的建模和转换中已经取得了显著成效,文献[11]使用CWT方法将基频分解至10个层级,并基于动态核偏最小二乘法进行了语音转换。文献[12]提出基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的语音转换方法,其采用稀疏表达的思想将目标语音信号特征通过一组基数据的线性组合进行表示。近年来,少数民族语言的转换技术也取得了显著的研究成果[13],但是生成语音的自然度仍不够理想。

针对以上问题,本文基于NMF原理,使用CWT对情感语音基频进行层次建模,采用STRAIGHT[14]分析工具提取与合成语音特征,在此基础上提出一种参数控制的情感语音转换方法。

1 非负矩阵分解

1.1 分解方法

NMF是一种稀疏编码方法,其主要设计思想是将信号表征为一组基的线性组合,本文称这一组基为范例,其具体形式为:

其中,向量xn表示第n帧输入特征信号,向量dm和am,n分别表示第n帧信号的第m个范例特征及对应的非负权重。本文中,xn为第n帧语音信号的基频特征值,每一个基元素被称为基频的范例数据,其矩阵表示形式为:

xn≈Dan

其中,矩阵D=[d1,d2,…,dM],向量an=[a1,n,a2,n,…,aM,n]T分别表示基矩阵和对应权重的集,本文中,矩阵D为训练数据中构造出的范例字典,向量an为激活向量。

对于一句语音信号中的基频特征,对其进行NMF建模为:

X=DA

其中,矩阵X=[x1,x2,…,xn]表示基频参数化后的特征数据,矩阵A=[a1,a2,…,aN]表示对应的激活矩阵,N为语音信号的帧长。

NMF方法中加入了非负性限制的条件,在估计激活矩阵A时,最小化目标函数为:

其中,λ为稀疏限制因子,d(·)为代价函数,其采用Kullback-Leibler(KL)散度误差最小化方法计算X和DA两者的散度。对于矩阵a和矩阵b,两者的KL散度定义为:

其中,h表示a和b两种KL散度的计算数据域。

文献[15]给出了NMF的求解方法,本文求解激活矩阵A时使用的迭代更新法则如下:

An+1=An.*(DT(X./(DAn)))./(DT+λ)

其中,.*和./分别表示矩阵中各元素间进行点积和点除操作。

1.2 情感语音转换

利用NMF方法进行语音转换时,需要依据源字典矩阵Ds和目标字典矩阵Dt构造出一个平行字典数据,其中,源字典Ds由源说话人语音特征范例构成,目标字典Dt由转换到特定情感的说话人特征范例构成。这2个字典包含说话人相同的文本内容,由于基于NMF方法的语音转换需要源和目标的平行数据,因此本文使用动态时间规整(DTW)方法进行源字典和目标字典的对齐。

文献[16]指出,对于语音信号而言,对源信号和目标信号特征分别用源字典和目标字典进行稀疏表示时,最终获得的2个激活矩阵具有相似性。依据该结论,在已经获得源-目标平行字典范例数据的情况下,源字典估计出的源特征激活矩阵可以直接作为目标特征的激活矩阵,即转换中源和目标共用一组激活矩阵。因此,使用待转换的中性语音提取相应的激活矩阵,根据语料库中构建的情感字典可以将目标情感特征进行重构。

2 基于非负矩阵分解的情感语音转换

2.1 基频小波参数化

在基频参数化处理前,需要对提取到的语音基频进行预处理,将基频轮廓转换到对数域尺度,然后使用Z-score标准化方法对数据进行归一化,以便在小波尺度中分析使用。对一句中性语音的基频预处理操作流程如图1所示。

图1 例句“备化学考试”基频轮廓预处理流程

本文为更好地描述基频小波参数化过程,将基频轮廓表示为序列f0,f0连续小波变换W(f0)(τ,t)定义为:

其中,f0(x)是输入信号,ψ(t)是墨西哥帽母函数。

文献[2]对5个特定的离散尺度域进行分析,有效简化了小波建模,根据该文献思想,本文基频重建公式如下:

wi=W2i-1(f0)(t)+W2i(f0)(t)

i=1,2,…,5

其中,wi为特征参数向量,w1~w5依次对应韵律结构中的音素层、音节层、单词层、短语层和句子层。语音基频在通过预处理操作后,其小波分解后的5层表示形式如图2所示。

图2 基频轮廓的小波5尺度特征表示

NMF方法要求特征数据具有非负性,对小波分解后的5层数据进行非负变换处理,对矩阵w进行以e为底的幂函数操作,表示为:

Fc=exp(w)

此时得到的矩阵Fc即为用于NMF的情感转换小波参数化特征数据。

2.2 字典构建

在对基频进行小波分解后,针对得到的小波 5层特征Fc,用之前获取的原始基频帧对齐索引信息作为源和目标特征数据的对齐依据。从训练语音数据中获取各基频段的平行特征数据Fc,将其作为构建平行字典的范例数据内容。构建出的平行字典为:

此时,用于情感语音转换的平行字典被构建出来,其构成了用于情感语音转换的数据。

2.3 基频转换

因为源字典、目标字典使用相同的激活矩阵,所以能够采用NMF方法实现情感语音的基频转换。同时,引入转换参数控制调整因子进行基频转换,通过优化目标特征的激活值而重建出更具表现力的目标情感语音。

对于待转换的中性语音,采用同样的方法获得其基频段的5层小波表示形式,计算出其激活矩阵As,公式为:

传统的计算方法中,目标语音特征数据的表示方式为:

其中,C为参数控制调整因子,是一个常数,其值根据待转换到不同目标情感语音的实际情况而取得。在源激活矩阵As中的激活值较小时,将所占比重偏小的激活值取为0,该值不参与目标情感基频特征数据的构建。经过调整后,目标情感特征数据的构建采用如下的改进式:

3 实验结果与分析

3.1 实验设置

为有效评判引入调整因子对情感语音转换系统的影响,本文分别在具有调整因子和不具有调整因子的转换系统上进行实验,实验系统说明如下:

1)NMF-0系统中采用传统的NMF情感语音转换方法进行情感语音基频的转换,其作为基准线使用。

2)NMF-1系统在NMF转换方法的基础上,引入情感语音调整因子C,其通过调整参数C的数值获得对应的基频转换结果。

实验选取本研究小组录制的情感语音数据库作为语料数据源,录音采样频率为16 000 Hz,采样精度为16 bit,为双声道采样音频。选取中性、高兴、恐惧和悲伤4种情感的男声语音,每类语音共30句语句作为本次实验数据,进行由中性语音到其他3种情感语音的训练和转换实验,以验证本文转换方法的有效性。在转换实验中,用20句平行语句作为实验训练集数据,10句平行语句作为测试集数据,使用STRAIGHT工具提取语音基频,帧长为25 ms,帧移为5 ms,结合情感语音手工标注出浊音部分,提取对应平行语音基频段,用于情感语音基频转换。

3.2 客观实验与分析

在进行客观评测时,使用转换后的基频值与目标情感的基频值的均方根误差(RMSE)作为评估标准,该值表达式如下:

其中,l表示任一帧数据,L表示基频段中语音帧数据的总个数,Fl′表示经转换得到的第l帧基频数值,Fl表示对应该帧的目标基频数值。RMSE值越小,则情感语音转换的错误率越低,转换效果越好。

在实验中,分别使用NMF-0系统和NMF-1系统对中性到高兴情感、中性到恐惧情感、中性到悲伤情感进行基频转换。其中,中性-高兴字典基数据个数为4 535,中性-恐惧字典基数据个数为4 354,中性-悲伤字典基数据个数为5 521。NMF-1系统中选取的调整因子变化范围为[1.00E-06,8.00E-04]。不同C值下的客观实验结果如表1所示。

表1 不同C值下基频转换RMSE结果

由表1可以看出,在NMF-1中C=1.00E-04时,3种情感转换的RMSE值都比NMF-0中的对应值低,其中,中性-高兴情感RMSE值下降了1.77 Hz,中性-恐惧情感RMSE值下降了2.88 Hz,中性-悲伤情感RMSE值下降了1.48 Hz。引入调整因子C,可以在一定程度上降低情感语音转换的重建误差,其中,中性-恐惧类情感效果最为明显,达到了约3 Hz。随着调整因子的增大,RMSE值并不呈现下降趋势,在C=1.00E-06时,中性-高兴类和中性-恐惧类情感的RMSE值都有稍微提高,而中性-悲伤类情感RMSE值则有所降低。同时可以看到,当C的取值大于1.00E-04时,RMSE值急剧变大,重建基频发生扭曲,转换效果变差,因此,1.00E-04成为选取调整因子C的分界值。

通过上述分析可知,在基于NMF方法的情感语音转换中,引入调整因子C可以在一定程度上降低基频的重建误差。调整因子C值的选取不宜过小,也不宜过大,C值过小会因为比重不够而达不到较好效果;C值过大会使激活值不足而产生严重的基频扭曲,导致情感语音转换误差过大。

文献[17]指出在应用的问题规模逐渐增大时,NMF方法运算规模随之增大,此时,基于NMF的情感语音转换也会耗费很大的计算时间,对转换系统的性能有一定影响。为对比NMF-1和NMF-0 2种系统的时效性,对2种方法的情感语音转换计算时间进行实验分析。在字典中选取个数为500、1 000、2 000、3 000、4 000的基范例分别进行实验,统计 2种系统转换测试集数据的总时间及两者时间差,其中,NMF-1中选取调整因子C=1.00E-04,测试结果如表2所示。

表2 不同系统计算时间对比

从表2的结果中可以看出,在加入参数控制后,NMF-0和NMF-1 2种系统在运算耗时方面相差不多,NMF-1系统并没有因为控制参数的加入而耗费更多的计算时间,对于3种情感语音转换,中性-高兴转换中NMF-1仅在基范例个数为4 000时耗时相对较多,其他情况下两者耗时基本相当,其中也出现了NMF-1比NMF-0耗时短的情况,如中性-恐惧转换基范例个数为1 000、中性-悲伤转换基范例个数为3 000时。

综上所述,在基于NMF的情感语音转换中,引入参数控制后,转换系统并没有因此而产生较多的运行耗时。同时,通过参数控制的方法可以有效降低转换的RMSE值,使得目标基频具有更小的误差值,从而获得更好的转换结果。

3.3 主观实验与分析

为进一步对比转换效果,本文进行情感语音平均主观意见得分(Mean Opinion Score,MOS)实验。实验中采用“5分制”分别对数据库中的中性语音、情感语音、NMF-0转换后的情感语音和NMF-1转换后的情感语音进行MOS打分,具体的打分规则如表3所示。在每组评测中,选取30句情感语音(10句高兴,10句恐惧,10句悲伤)进行测试,4名大学生参与本次测听实验,受试人员均无听力方面障碍,能够熟练理解和运用待测试语言。

由客观实验结果可知,C=1.00E-04时,3种情感的转换语音在RMSE值上均最优。因此,主观实验中NMF-1方法设定C=1.00E-04。

表3 MOS打分规则

图3所示为对实验语料库的4种情感进行MOS打分的结果,从中可以看出,所有类别的语音都基本能够正确表现出特定情感,因此,该语料数据能有效分析本次主观实验。

图3 原始语料库MOS打分结果

图4所示为NMF-0系统和NMF-1系统由中性转换到高兴、恐惧、悲伤情感语音的MOS打分结果。由图4中结果可以看出,NMF-1系统转换的高兴和悲伤情感MOS得分都比NMF-0系统高,而转换的恐惧情感MOS得分较低,产生该现象的原因有2点:1)高兴和悲伤有很明显的情感特性,听辨者很容易捕捉其情感变化;2)由于恐惧情感中带有颤音、停顿等情感因素,在原始语料库MOS得分中相对其他2种情感得分较低,情感的变动因素会给听辨者带来一定的区分难度。在本次主观实验中,中性转换到高兴、悲伤情感达到了预期效果,加入调整因子的参数控制方法获得了相对较高的MOS分。

图4 不同系统语音转换MOS得分结果

4 结束语

本文基于NMF提出一种参数控制的情感语音转换方法,研究特定语言的情感语音基频转换。通过将目标基范例替换待转换语音基范例重建出目标语音基频,且在具体的转换方法中引入激活度调整因子作为参数控制,从而更好地捕捉目标情感语音基频特征,提高情感语音转换质量。实验结果表明,相对没有引入调整因子的传统方法,该改进方法在基频重建误差和情感力度方面均表现出一定的优势,能有效将中性语音转换为情感语音。针对本文的分析结果,后续将在以下3个方面展开工作:研究平行字典中基范例数据的最优个数,降低系统的运行时间,提升转换模型的性能;在情感语料库中摆脱平行数据的限制,使用非平行数据构建转换字典;结合统计分析方法构建优化参数控制模型,基于待转换情感语料自适应获得调整因子的最优值,提高情感语音转换的灵活性。

[1] 凌震华,高 丽,戴礼荣.基于目标逼近特征和双向联想贮存器的情感语音基频转换[J].天津大学学报(自然科学与工程技术版),2015,48(8):670-674.

[2] MING H,HUANG D,DONG M,et al.Fundamental frequency modeling using wavelets for emotional voice conversion[C]//Proceedings of 2015 International Conference on Affective Computing and Intelligent Interaction.Washington D.C.,USA:IEEE Press,2015:804-809.

[3] ABE M,NAKAMURA S,SHIKANO K,et al.Voice conversion through vector quantization[J].Journal of the Acoustical Society of Japan,1988,11(2):71-76.

[4] AFIFY M,CUI X,GAO Y.Stereo-based stochastic mapping for robust speech recognition[J].IEEE Transactions on Audio Speech and Language Processing,2009,17(7):1325-1334.

[5] YE H,YOUNG S.Perceptually weighted linear transfor-mations for voice conversion[EB/OL].[2017-04-20].https://wenku.baidu.com/view/582d53353186bceb18e8bbc9.html.

[6] DESAI S,RAGHAVENDRA E V,YEGNANARAYANA B,et al.Spectral mapping using artificial neural networks for voice conversion[J].IEEE Transactions on Audio Speech and Language Processing,2010,18(5):954-964.

[7] TAO J,KANG Y,LI A.Prosody conversion from neutral speech to emotional speech[J].IEEE Transac-tions on Audio Speech and Language Processing,2006,14(4):1145-1154.

[8] CHAO Y R.A Grammar of Spoken Chinese[M].Berkeley,USA:University of California Press,1970.

[9] 李 贤,於 俊,汪增福.面向情感语音转换的韵律转换方法[J].声学学报,2014,39(4):509-516.

[10] 孙 健,张雄伟,曹铁勇,等.基于卷积非负矩阵分解的语音转换方法[J].数据采集与处理,2013,28(2):141-148.

[11] SANCHEZ G,SILEN H,NURMINEN J,et al.Hierarchical modeling of F0 contours for voice conversion[EB/OL].[2017-04-20].http://www.isca-speech.org/archive/archive_papers/interspeech_2014/i14_2318.pdf.

[12] AIHARA R,UEDA R,TAKIGUCHI T,et al.Exemplar-based emotional voice conversion using non-negative matrix factorization[C]//Proceedings of 2014 Summit and Conference on Asia-Pacific Signal and Information Processing Association.Washington D.C.,USA:IEEE Press,2014:1-7.

[13] 杜楠楠,赵 晖.维吾尔语情感语音韵律转换研究[J].计算机工程与应用,2016,52(19):154-160.

[14] KAWAHARA H,MORISE M,TAKAHASHI T,et al.Tandem-STRAIGHT:a temporally stable power spectral representation for periodic signals and applications to interference-free spectrum,F0,and aperiodicity estimation[C]//Proceedings of 2008 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2008:3933-3936.

[15] LEE D D,SEUNG H S.Learning the parts of objects by non-negative matrix factorization[J].Nature,1999,401(6755):788-791.

[16] TAKASHIMA R,TAKIGUCHI T,ARIKI Y.Exemplar-based voice conversion in noisy environment[C]//Proceedings of IEEE Workshop on Spoken Language Technology.Washington D.C.,USA:IEEE Press,2013:313-317.

[17] 郭 立,张守志,汪 卫,等.一种增量式非负矩阵分解算法[J].计算机工程,2010,36(4):66-68.

猜你喜欢
基频字典中性
语音同一认定中音段长度对基频分析的影响
基于时域的基频感知语音分离方法∗
急性发热性嗜中性皮病1例
桥面铺装层对中小跨径桥梁基频影响分析
英文的中性TA
字典的由来
大头熊的字典
中性墨水的消泡和消泡剂
45000kHz基频晶体滤波器
高桥爱中性风格小配饰让自然相连