一种改进的语音端点检测方法研究

2012-07-13 03:06王彪

电子设计工程 2012年4期

王彪

（宝鸡文理学院数学系，陕西宝鸡 721013）

近些年来，语音信号处理技术已经发展的相当成熟。对语音信号进行各种分析处理之前，要首先从原始语音信号中找到有用的语音成分，即要确定有音段和无音段，这也正是语音端点检测工作的任务。因此，语音端点检测是语音分析、语音合成和语音识别等语音信号处理中的最初始、最基本的环节，也是最重要的环节[1]。

目前，比较常用的端点检测方法大多是传统方法，这些方法在较高的信噪比下均能给出较高的检出率，但是在低信噪比下却不够理想[2]。比如：基于短时能量的方法，基于短时过零率的方法，其中，前者在背景噪声较小时较为有效，而后者在背景噪声较大时较为有效。

为了能够较为准确的检查语音，以提高语音识别率，本文提出了一种改进的语音端点检测方法。在传统基于能量和过零率的端点检测方法基础上，再加入第三道门限——近似熵，即通过每帧信号的近似熵进一步区分有音段和无音段。最后通过仿真实验加以验证，改进的方法取得了较好的检测效果。

1 传统端点检测方法

基于能量和过零率的端点检测方法把语音短时能量和过零率结合起来，利用二者进行检测。该方法采用两级判别法，首先用语音的短时能量E判别，在此基础上再用过零率进行第二次判别。做第一级判别时，通常采用双门限方法。如图1所示，根据短时能量首先选择一个较高的门限R1，信号的能量大多在门限R1之上。可知：语音的起始位置和终止位置在该门限与短时能量包络交点所对应的时间间隔之外（即AB段向外）[3]。然后根据噪声平均能量确定一个较低的门限R2，找到短时能量包络与门限R2的两个交点C和D，而CD段就是所判定的语音段。接下来作第二级判别，这次以短时平均过零率Z为依据，从CD段之外的信号段去搜索短时平均过零率包络与某个门限M3的交点E、F，如图2所示。E和F就是语音段的起始位置和终止位置。

图1 基于短时能量端点检测原理Fig.1 Endpoint detection principle based on short time energy

2 近似熵

近似熵（Approximate entropy，简称 ApEn）是最近发展起来的一种度量序列的复杂性和统计量化的规则。它是在20世纪90年代初由Pincus为了克服混沌现象中求解熵的困难提出的。Pincus给出的近似熵的定义及计算方法如下[4]：

图2 基于短时过零率端点检测原理Fig.2 Endpoint detection principle based on the short-time zero-crossing rate

1）给定长为N点的时间序列u：u（1），u（2），…，u（N），按顺序组成m维矢量X（i）：X（i）=[u（i），u（i+1），…，u（i+m-1），i=1～N-m=1]。对每一个i计算矢量X（i）与其余矢量X（j）之间的距离：

2）给定阈值r>0，统计d[X（i），X（j）]≤r的数目及此数目与矢量个数N-m+1 的比值，记作（r），先将（r）取对数，再求其对所有i的平均值，记作 φm（r），即

实际应用中，对数据的采样点数不可能达到N→∞，可以根据有限长N个采样点ApEn（m，r）对进行估计：

近似熵本质上是确定一个时间序列的复杂程度，它反映了当维数m发生变化时，时间序列产生新模式的概率的大小。

3 改进的语音端点检测方法

在噪声背景下，基于短时能量和过零率的端点检测方法效果有限，不能较准确的检测语音信号。为提高检测率，本文提出了改进的谱熵端点检测方法，即在短时能量和短时过零率两级门限的基础上，加入了第三级门限——近似熵，以能更好的完成检测任务。文中改进的端点检测方法步骤如下：

1）先将语音信号用加窗分帧，得到第i帧语音为s（n，i）。

2）计算每帧信号短时能量，设置第一级门限R1。

3）计算每帧信号短时平均过零率，设置第二级门限R2。

4）计算每帧信号近似熵，设置第三级门限R3。对语音信号进行三级门限检测。

4 仿真实验

下面通过MATLAB软件进行试验仿真，以验证文中方法的有效性和优越性。

用普通计算机麦克风录入说话人的语音，将其保存为.wav文件，以汉语拼音ang的.wav文件为例，进行说明。首先对给语音ang以randn函数加入随机噪声，然后分别用基于短时能量、基于过零率和本文的方法对染噪语音进行端点检测。得到如下结果：

图3 原始语音波形Fig.3 The original speech waveform

图4 染噪语音波形Fig.4 Noisy speech waveform

图5 基于短时能量端点检测Fig.5 Endpoint detection based on short time energy

图6 基于过零率端点检测Fig.6 Endpoint detection based on the zero crossing rate

图7 本文的端点检测方法Fig.7 The endpoint detection method in this paper

表1 不同端点检测方法的准确率Tab.1 The accuracy rate of different endpoint detection method

从上面图中波形和表中数据可知：文中方法无论对原始信号还是对染噪信号进行端点检测，都有很好的效果，在波形上要比基于短时能量、过零率的方法清晰，在数据上要更加的准确，从而说明了本文方法的有效性和优越性。

5 结束语

首先，文中介绍了传统语音端点检测方法，如基于短时能量、基于过零率、基于短时能量——过零率的端点检测方法[5]；其次，叙述了近似熵；再次，提出改进的端点检测方法[6]，在传统基于能量和过零率的端点检测方法基础上，再加入第三道门限——近似熵；最后，用MATLAB软件做仿真实验，依次用四种方法对语音信号进行端点检测，实验表明本文的方法取得了比传统方法更为理想的结果。

当然，文中的方法还有一定的不足之处，如：能否在不同信噪比下去验证本方法？这是亟待解决的问题，需要进行更加深入地研究。

[1]顾亚强，赵晖，昊波.一种语音信号端点检测的改进方法[J].计算机仿真，2010，27（5）：340-343.

GU Ya-qiang，ZHAO Hui，WU Bo.An improved method of the voice endpoint detection [J].Computer Simulation，2010，27（5）：340-343.

[2]李晔，张仁智，崔慧娟，等.低信噪比下基于谱熵的语音端点检测算法[J].清华大学学报：自然科学版，2005，45（10）：1397-1400.

LI Ye，ZHANG Ren-zhi，CUI Hui-juan，et al.Voice activity detection algorithm with low signal-to-noise ratios based on the spectrum entropy[J].Jouranl of Tsinghua University：Science and Technology，2005，45（10）：1397-1400.

[3]侯周国.于HMM的汉语数字语音识别系统研究 [D].湖南：湖南师范大学，2006.

[4]雷雄国，曾以成，李凌.基于近似熵的语音端点检测[J].声学技术，2007，26（1）：121-125.

LEIXiong-guo，ZENG Yi-cheng，LILing.Noisyspeech endpointdetection based on approximate entropy[J].Technical Acoustics，2007，26（1）：121-125.

[5]李晋.语音信号端点检测算法研究[D].湖南：湖南师范大学，2006.

[6]马静霞.带噪语音端点检测方法的研究[D].河北：燕山大学，2007.