一种面向智能家居的语音端点检测方法仿真

2017-02-05 06:21杨熙

湖南科技学院学报 2017年10期

杨　熙

一种面向智能家居的语音端点检测方法仿真

杨熙

(湖南科技学院电子与信息工程学院，湖南永州 425199）

为了人机之间的智能化沟通，实现家居的真正智能化，有必要在智能家居系统中引入语音识别技术，而端点检测是语音识别前端处理中很重要的一环。文章针对传统的双门限端点检测算法在实际运用中存在的一些漏检和虚检情况，做了一些修正，并对改进后的算法进行了仿真验证。实验结果表明改进后的算法具有一定的抗噪声能力。

语音识别；智能家居；端点检测

0　引言

随着社会的进步，人们对家居品质的需求越来越高，智能家居成为当今的热点，但人机接口方面却仍局限于按键、触摸屏等手动操作，没有实现人机之间基于自然语言的智能化沟通[1]。为了让人与机器和人与人的交流方式一样，实现家居的真正智能化，有必要引入语音识别技术。端点检测是语音识别前端处理中很重要的一环，它的工作就是确定语音信号的开始位置和结束位置。精确的端点检测，不仅有利于让系统仅处理语音输入，降低对系统存储空间的要求，还能节省处理时间，提高识别率。

实际应用中，有效的语音端点检测算法不仅要考虑检测的精确性，还要求算法具有简单性。鉴于智能家居语音识别控制系统中，需要识别的语音样本来自室内，故采用双门限端点检测算法。为了有一定的抗噪声性能，对传统的双门限检测法进行了改进。

1 传统的双门限端点检测算法

语音信号通常有浊音段、清音段和静音段之分，传统的双门限是利用两个有效参数：短时能量和过零率，来实现语音端点的检测。从能量的角度来区分“静音”还是“有声”，但清音段的能量小，可也属于语音段。那么怎么来处理？考虑到它的过零率比较大，因此用过零率来检测。端点检测时，必须先分帧，分帧后再求短时能量和过零率，然后逐帧跟阈值进行比较并判断。

1.1短时能量

式（1）中，帧长为N，n取0，1T，2T，…，这里T代表帧移。

1.2过零率

过零率指的是样本改变符号的次数。对于语音信号，定义为一帧信号中波形通过零电平的次数[2]。第帧语音信号的短时过零率Z为：

式（3）中，sgn[ ]为符号函数。

浊音能量较大，用短时能量来检测，清音的频率较高，用过零率来找到它。经典的双门限端点检测算法如图1所示。能量门限有两个：一个较高的门限amp1，另外一个门限是amp2，门限amp2比门限amp1稍微要取得低些。若超过能量门限amp1，肯定是语音已开始，通过低门限amp1确定语音的开始N1和终止处N2，如果是清音的话，能量很弱，再用过零率进一步来精确端点。

传统的双门限端点检测算法在实际应用时，如果处理不当，存在错把干扰当语音的虚检或错把停顿当语音结束的漏检问题，特别是当有较大干扰时[3]。

图1.用能量和过零率进行端点检测

为了克服传统端点检测算法的一些缺点，因此有必要对它做一些修正。下面对传统的算法做了一些改进。

2　改进的端点检测算法

（1）采用多门限判定。除了设定短时能量的高低两个门限amp1和amp2，过零率阈值zcr，还增设了字与字之间的最大静音门限maxsilence；最小语音长度门限minlen。其中maxsilence是为了防止漏检；minlen是为了排除一些突发性的噪声，防止误检。

（2）动态设置阈值。利用语音前导无话段来估算噪声的特性，即对前导无声段，一般取200ms左右，估算背景噪声的短时平均过零率和短时平均能量，再在这两值的基础上设置能量和过零率的阈值，这样改进后的端点检测算法会具有一定的抗噪声性能。这里高低能量门限分别取的是前导无话段平均能量值的2倍和4倍；过零率门限取前导无话段平均过零率的2倍；最大静音门限maxsilence和最小语音长度门限minlen分别取8和5，maxsilence和minlen参数还和说话人的语速有关系，所以以上这些参数的选取都应根据实际情况进行调整。

（3）修正过零率。实际中由于噪声的存在，系统存在零漂移，这时用式（3）计算出的短时过零率来区分清音段和无声段，将会影响端点检测效果。为了保证过零率计算的稳定，需要对（3）式进行修正。修正后的过零率按式（4）进行计算。T为经验值，这里取0.02。

算法思路是当某帧信号大于能量低门限amp2或者大于过零率阈值ZCR时，找到语音的起始点，当大于能量高门限amp1时，肯定是语音信号，如果它的持续时间还能不小于minlen，则就是我们所需的要检测出来的语音信号。

整个端点检测过程是基于状态转移的，有5个转移状态。其中status0表示包含噪声的静音态，status1表示语音的起始过渡态，status2表示真正的语音态，status3表示字与字间的停顿态，status4表示检测完毕的结束态。设置标志位fag，当fag=1时，继续往后扫描后续单字的端点，当flag=0时，表示已经找到语音的结束点，并返回。这5个状态之间的转换关系如图2所示。

图2.改进端点检测的状态转移示意图

3　仿真与分析

图3为女声“关机”的端点检测结果，从原语音波形可以看出来在50帧到100帧之间有明显的突发性噪声；图4是女声“打开空调”的语音样本，叠加了40dB的高斯随机噪声。

图3.女声“关灯”的端点检测结果

图4.带噪语音“打开空调”端点检测结果

从图3和图4仿真结果可看出，用基于动态噪声的改进端点检测方法，对于突发性噪声及信噪比不是太低时都有比较不错的端点检测效果。

[1] 刘萌,赵建平,等.基于语音识别的家庭智能监控系统设计[J].电声技术,2016,(10):58-59.

[2]孙一鸣,吴杨扬,李平.基于改进双门限法的语音端点检测研究[J].长春理工大学学报(自然科学版),2016,(1):92-95.

[3] 薛胜尧.基于改进型双门限语音端点检测算法的研究[J].电子设计工程,2015,(4):78-81.

（责任编校：宫彦军）

2016－02－16

湖南省教育厅科研项目（项目编号16C0683）；永州市科技计划项目（项目编号永科[2015]9号）。

杨熙（1982－），女，湖南永州人，讲师，硕士研究生，研究方向为语音识别，嵌入式系统。

TP391

1673-2219（2017）10-0037-02

一种面向智能家居的语音端点检测方法仿真

0 引言

1 传统的双门限端点检测算法

1.1短时能量

1.2过零率

2 改进的端点检测算法

3 仿真与分析

0　引言

2　改进的端点检测算法

3　仿真与分析