基于贪婪算法的俄语字音快速转换方法

2022-11-28 09:28王文娇
自动化技术与应用 2022年10期
关键词:规整错误率字音

王文娇

(渭南师范学院,陕西 渭南 714099)

1 引言

语音识别与众多合成技术的高速发展,促使计算机实现了高度智能的人机交互,能够完成所有语言的识别与转换。其中,俄语是联合国官方语言之一,也是多个国家的通用语言,在语音转换中占据重要地位。在俄语语音识别领域中,发音字典作为单词的主要储存场所,其质量直接影响语音识别结果。字音转换是发音字典中必要模块,该技术指通过计算机完成单词音标自动标注,并将单词文本转换为方便人和机器处理的单词发音,不但能够提高发音字典建设质量,还可以解决自动注音问题。为此,俄语的字音转换成为该领域研究的热点问题。

文献[1]提出从规则或数据驱动角度研究字音转换方法。该方法按照辅音变化等规则,通过重音词典,在海量数据支持下,将概率统计与机器学习相结合,构建发音模型,再利用解码方式为单词注音,完成字音转换。此种方法转换过程复杂,必须经历多次循环操作。文献[2]提出基于规则和N-Gram 算法的新词字音识别转换研究。该方法针对分词工具转换字音数据后存在的转换误差,在该工具基础上,结合目标词语的结构,设计字音转换的数据库,并借助Bi-gram 和Tri-gram 模式提取数据库中的数据,最优采用熵值计算方法将字音转换中存在的噪声过滤掉,完成字音的转换。该方法可有效提升字音转换精度,但设计的数据库数据有限,覆盖范围存在一定局限。

为解决上述方法中存在的不足,本文利用贪婪算法实现俄语字音快速转化。通过构建最大熵转换模型,利用该模型消除歧义词语,便于进一步字音快速转换,再使用贪婪算法规整语音时长,确保语音时长在适当范围内,提高快速转换效果。

2 基于贪婪算法的俄语字音快速转换

2.1 最大熵多音词消歧模型构建

最大熵模型已广泛应用在语言处理领域,该模型在对概率分布估计时,只需使其符合约束条件,即确定熵最大时概率分布情况,建模过程较为简便。此模型在分词和词性标注[3]等方面取得较好研究成果,本文将展开新的尝试,将其应用在俄语多音词消歧过程中。

(1) 特征与约束

在俄语字音转换中,可将一些问题当作统计分类问题。针对俄语多音词消歧问题,y即为多音词读音,x代表文本环境[4],包含词性、词语长度等信息,则最大熵模型特征f 可表示事件(x,y)能否出现的二值函数,表达式如下:

在俄语字音样本中,事件(x,y)的理想值可表示为:

将事件(x,y)引入到最大熵模型中,获得理想值为:

事件(x,y)的理想值与最大熵模型的理想值需保持相同,则有:

将公式(4)当作特征f 的约束条件,其能够约束概率模型p(y|x)与训练样本分布情况更加接近。

(2) 最大熵准则

如果共存在k个特征,则符合所有特征的约束条件存在概率分布可以组成集合:

其中,E表示理想值,i属于常数。

则最大熵模型符合下述要求:

式中,H(p)表示条件熵,其计算公式为:

在符合全部约束条件的概率分布中,将条件熵最大的分布当作最大熵模型。

(3) 指数形式

利用拉格朗日算法对公式(6)计算,构建最大熵模型为:

式中,ω表示特征f 的权值,可通过迭代方法[6]在训练样本中计算得出,Z(x)表示归一化因子[7],表达式如下:

利用上述最大熵模型即可实现文本中多音词消歧,提高转换速度,降低转换错误率。

2.2 俄语字音快速转换

在上述俄语多音词消歧后,完成俄语字音的快速转换。俄语字音转换系统中包括词语的音节与音调等信息,根据俄语词长短构建两级索引[8]。

已知俄语字符串S=s1,s2,…,sn(n≥1),且以字符si作为结尾,将具有的俄语词汇集合表示为φi与φj,其中元素记作(1≤j≤ni),ni代表集合φi中元素数量,针对两个集合φi和φj随机选取的元素与,满足1≤k'≤n、1≤p'≤n。若存在i≤j,则两个元素之间具有的偏序关系表示为≤,将此种关系对应的节点组成词网格,其中每条路径都可作为词句候选。字音转换是根据语言模型评判候选词句,确定最佳候选路径,实现快速转换。

本文研究中将俄语当作离散马尔可夫模型,描述为M',某字词仅和前n-1 个词存在关联时,可将其称作文法模型,写作。

式中,p'与N'均为常数。

俄语词典用V描述,在构建时,统计参数可记为,若N'的值足够大,其参数空间规模也随之增大。俄语字音转换中,如果训练样本数量较少,训练集合无法覆盖合法语言。此时,一些参数等于0,此种现象被称作数据稀疏。为解决该问题,本文通过规则和统计相结合的语言模型路径评价方法处理该问题。常用语法分析均为语法完整性判断,必须构建完整分析树,如果语法树无法生成,则导致分析失败。但此时分析器已给出很多局部精准分析,全局分析不成功的主要因素通常为知识库中缺乏相关规则。若能使用有关统计关联信息,则能获得最优分析结果。为便于研究,本文给出下述假设:

(1) 在规则库中描述为A1+A2+…,At的规则,均称其为t元规则;

(2) 某元素属于五元组〈begin,end,R'(t),sublist,attr〉,且R'(t)是t元规则A1+A2+…,At→B,sublist表示形成此元素的列表{e1,e2,…,ei},ei(i=1,…,t)的属性为Ai,begin与end分别达标元素的起始与终止时间,attr 代表元素属性。

每个元素均与某颗树对应,根节点代表其本身,叶节点即为其子孙。叶节点是由词典中的俄语词汇构成,其列表表示为。其中元素表示分析树的子树;

“按行消元,逐行规格化”的计算过程决定了其不适合应用对角元以右元素与对角元以下元素的对称性进行计算,因为在这种计算方式下,对第i行元素进行消元,要通过赋值分别或者一次性地得到其对角元以左的第1~i-1个元素就显得极为不便。因此这种计算方式对A阵元素的前代过程有大量的多余计算,从而导致计算效率不高。如果仅计算包括对角元素的上三角元素或包括对角元素的下三角元素,而通过对称性来获得另一半元素,则由于上下三角元素的不等,在对A阵或F阵元素的前代过程中会出现大量乘或除对角元素的重复计算,同样影响计算效率。

(3) 将包括元素节点的词网格当作元素网络。

在元素网格内,某语句候选表示为从开始到结束的一段时间内,首尾相互连接的元素节点序列s=<e1,e2,…,en>。如果,则确定语句候选的评价函数:

如果语言模型为二元文法,则俄语词句候选评价过程表示为:

如果语言模型为三元文法,此时俄语词句候选评价过程利用下述公式描述:

利用上述规则统计语言模型即可处理俄语中的音节搭配关系,完成词句候选评价。将最优候选路径作为最佳转换关系。在明确转换关系后,需确定语音时长,进一步提高转换效果

2.3 基于贪婪算法的语音时长调整

语音时长调整是将语音信号长度扩展或压缩,按照任意速度播放,同时确保发音语调不变。在面对大规模文本时,通过规整因子,将语音时长调整为适当长度,可提高字音转换效果和效率。

若将输入信号分割为M帧,任意一帧中存在N个采样点,且每帧之间的间隔表示为Sa,理想规整因子描述为α0。利用La(m)代表合并m帧前语音信号长度,Ls(m)为合并后m帧的输出信号长度,表达式分别如下:

式中,Ss(z)代表第z帧和前一帧之间的合成距离,且Ss(1)=0。

因此获得m帧规整因子α(m)的表达式:

将自适应法则引入到贪婪算法中。假设完整语音信号分割成X1与X2,随帧m不断改变,被分割部分的理想规整因子表示为α1(m)与α2(m),同时满足α1(m)=γα2(m)。其中,γ属于能够灵活调控两部分之间相关性的参数。如果第m帧和之后的所有帧中,X1与X2的长度符合X1=w(m)X2的要求,w(m)代表m帧时长。在m帧时,X1与X2同时生成存在规整因子α(m)的结果,表示为:

利用动态实时估计方法计算w(m)的值,不断记录语音帧类型,获取当前类型语音与其他类型语音比值,用其代替未处理语音信号中不同类型语音时长比,实现自适应贪婪语音时长调整,完成俄语字音的转换。

3 实验分析

为证明本文字音快速转换算法性能,将Matlab R2007b当作仿真软件。在TIMIT数据库中任意抽取700条俄语语句进行转换测试。假设采样频率为20kHz,设置规整因子α=0.4。

图1为随机选择的某条俄语语句完成字音转换后输出的波形,其中图1(a)是初始波形,图1(b)为经过贪婪算法规整后的波形。

由图1能够看出,经过贪婪算法规整后语音长度比初始语音长度缩减了一半,且信号波形幅度变得更加稳定。语音时长的缩短能够提高转换速度,同时平稳的信号能够体现转化过程更加稳定,不会出现词语丢失等现象。

为进一步验证所提方法有效性,利用字音转换错误率作为评价指标,多音词的累计错误率包括语境约束和高频默认累计错误率两种,计算公式分别如下:

式中,freq(w')表示词语w'的频率,α'与β'分别代表语境约束和高频默认的累计平均错误率。当词语w'不断增加时,本文方法转换错误率实验结果如表1所示:

表1 本文方法字音快速转换错误率表

如表1所示,利用本文方法得到的转换结果显示,单音词转换的错误率非常低;随着俄语词汇量的不断增加,多音词转换错误率随之提高。其中,高频默认累计方面的错误率较高,但低于1%,均在可控范围内,这是因为本文构建了最大熵模型,利用该模型实现了多音词消歧,降低转换错误率。

4 结束语

在语音合成系统支持下,本文将自适应贪婪算法与最大熵算法相结合,通过对快速转换模型求解,获得全局最优解,缩短转换时间,再对语音时长进行适当调整,提高转换效果。实验表明,该方法不但能实现字音的快速转换,还可以降低失真出现概率,提高转换精度。

猜你喜欢
规整错误率字音
“教学做合一”在生成课程背景下构建区角游戏开展
300kt/a硫酸系统规整填料使用情况简介
小学生分数计算高错误率成因及对策
“多说一遍”字音字义大不相同!
正视错误,寻求策略
沈括识音
提高日用玻璃陶瓷规整度和表面光滑度的处理方法
电梯的建筑化艺术探索
解析小学高段学生英语单词抄写作业错误原因
《诗集传》叶音与宋代常用字音——叶音同于韵书考论之二