基于语音控制的人机交互智能系统研究*

2015-02-18 00:35梁汉泉陈锦彪

新技术新工艺 2015年9期

关键词：智能系统人机交互研究

梁汉泉，陈锦彪

(广东电网有限责任公司佛山供电局，广东佛山 528000)

基于语音控制的人机交互智能系统研究*

梁汉泉，陈锦彪

(广东电网有限责任公司佛山供电局，广东佛山 528000)

摘要：语音控制是当前最具发展前景的新兴技术之一,目前已广泛应用于车载终端、智能机器人等场合。对语音识别在玩具车上的应用进行了深入研究。基于高度集成的DSP芯片进行语音控制系统的设计，使用了双硅麦减噪，能够获取到清晰的音频数据。根据DTW算法和动态模板匹配，对输入语音信号进行了端点检测，对特定人的孤立词进行了识别。当多个语意近似词汇无法准确识别时，提供选择处理，使语音引擎对音质、音色的区别进行了灵活的处理，提高了识别率和用户体验感受。该语音识别在正常生活环境中进行了测试，能适应日常生活或工作环境。研究结果表明，此方案和算法具有准确的识别效果。

关键词：语音控制；人机交互；智能系统；研究

语言是人类进行信息表达的最自然的手段。随着技术的发展，以语音识别为核心的语音控制在汽车声控、自动售票、智能玩具和智能家具等方面的应用越来越广泛。语音控制方式的人机交互具有快捷、简便的显著优点，但由于人类语言的多样化，语音控制的实现也存在一定的复杂性，需要在实践中不断研究并加以提升。笔者结合多年工作经验，设计了一套语音控制系统，其特点是关键词语列表可以任意动态编辑，小体积、低功耗和可通用，因此有着广泛的应用前景。

1语音控制原理

语音控制的实现包含2个基本环节[1]：1)语音识别；2)语音与计算机交互。

1.1语音识别

语音识别的过程主要分2个阶段[2]：1)训练阶段；2)识别阶段。训练阶段是通过用户输入若干次训练语音，经过预处理和特征提取后得到特征参数，最后通过特征参数建模达到建立训练语音的参考模型库的目的；而识别阶段是将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较，然后把相似性最高的输入特征矢量作为识别结果输出，从而达到语音识别的目的。语音识别的工作原理如图1所示。

图1　语音识别的工作原理

语音识别的关键技术包括：1)预处理，主要要做好语音识别基元选取和端点检测，可采用的技术有反混叠滤波、模/数转换和预加重等；2)特征提取，常用的特征采集函数为倒谱、共振峰、线性预测系数、平均能量和过零数等；3)距离测度，常用的方法有HMM距离测度、似然比测度和欧氏距离测度等。

1.2语音与计算机交互

该环节的过程为经识别的语音转换成字符，计算机寻找与字符相匹配的指令集并调用相关指令，然后经计算机指令接口去触发指令所代表的操作。关于第三方软件的语音操作，可以通过统一的语音指令接口，由第三方软件监听相应的指令从而实现对第三方软件的语音操作。

2语音控制系统的设计

2.1总体设计方案

目前，适用于语音控制的硬件芯片全部基于嵌入式原理[3]，具有代表性的有三星公司的S3C2440A、凌阳的SPCE061A和I-CRoute的LD332X等。考虑到语音处理涉及的数据运算量大，数据算法复杂，笔者结合现实环境，选用集中性强、功耗低的DSP类芯片来进行系统设计。系统总体框架如图2所示。

图2　语音控制系统的总体框架

SDRAM为数据存储器，FLASH为程序存储器，RPT2000为无线收发模块，语音编解码芯片为TLV320AIC23 B。经由麦克风的语音通过音频解码处理后传送给DSP芯片，DSP根据预设算法进行分析，识别出语音控制命令。语音命令一方面送LCD显示，另一方面通过无线方式与智能设备实现交互。

2.2语音识别的算法选择

从计算量、移植便利性和语音识别率等多方面综合考虑，本文选用DTW算法来作为本设计的算法。该算法的主要逻辑公式为[4]：

(1)

2.3系统软件实现

软件编制流程图如图3所示。

图3　语音控制系统的软件编制流程图

语音编制解码芯片与DSP之间用I2C总线互联，系统启动时，DSP通过CSL片上支持库和MCBSP串口来分别完成对TLV320 AIC23的配置和读写操作。存储器通过EMIF口与DSP进行双向通信，主要存储聚类过程中的模板。无线收发模块有7个引脚，引脚功能配置通过DSP的I/O口进行。

3基于语音控制的智能系统结构

从工作模块上讲，基于语音控制的智能系统一般包括3个组成部分：上位机部分、区域控制器部分和核心控制中心。其中：1)上位机支持麦克风作为语音输入接口，主要负责智能系统的系统管理、实时状态监控等，是人机交互主界面；2)区域控制器由DSP处理器、外扩存储器、CAN总线模块和电源管理模块等组成，负责指令的解析(包括经语音识别产生的指令)、信息的处理；3)核心控制中心的构成与区域控制器类似，唯有增加了编码器接口模块以及可能的电动机驱动模块(如机器人控制就需要用到电动机驱动模块)，负责完成指令的终极执行。

基于语音控制的智能系统工作模式如下：1)用户的语音指令经麦克风输入，上位机处理后产生计算机能理解的程序代码；2)区域控制器通过通信网络(如以太网)接收上位机给出的程序代码，并进行解析计算，产生各类控制量；3)核心控制中心通过CAN总线接收控制量信息，输出最终的控制信号，完成指令的执行。

4性能测试

4.1计算机仿真

对本文设计的语音控制系统进行简单的计算机仿真，其结果见表1。其中，模板1表示对“1”的聚类，模板2表示对“2”的聚类，其余类推。显然，在语音输入“2”时，系统检测到模板2与其最接近，因此判断为“2”；在语音输入“8”时，系统检测到模板8与其最接近，因此判断为“8”。仿真结果初步显示了系统的有效性和正确性。

4.2用于对玩具小车的测试

将本次设计的语音控制系统用于玩具小车，分别针对2种情况进行测试：1)输入语音的时间固定(如3 s)；2)输入语音为语音流，即长短不一，需要进行端点检测。为了保证检测效果的合理性，在试验中选择了5个不同音色的人进行语音命令的发布。检测结果的汇总(每次测试100遍)见表2。

表1　语音控制系统识别效果的计算机仿真

表2　不同音色人员应用语音控制系统的实际结果

实验室测试结果显示，本次设计的语音控制系统的控制成功率>98%，因此满足国家要求，可将其投用于实际生产中。同时应认识到，测试样本是基于实验室环境的纯净样本，当周边噪声增强时，识别率可能会有所下降。这也说明，语音控制的关键是要做输入语音的预处理工作。

5提高语音识别率的措施探讨

笔者结合多年工作经验，总结出如下几个提升语音控制水平的措施：1)尽量使用标准化语法、格式化语法进行命令表述；2)对应用系统的专业性词汇进行容错、近似词汇定义；3)为应对标准语法命令(前半部分为指令抬头，后半部分为执行内容)，应将识别文本定义为类似DOS命令及其参数格式的样子，建立标准的指令通信接口和标准指令集；4)对存在多个近似词汇的情形，可将疑似信息全部输出，然后采用选择题方法供用户确认，这样一方面增加了体验感，另一方面也提高了准确性。

6结语

利用语音控制实现人机交互，一方面解放施令方的双手，另一方面也便于实现远程控制。可以说，语音控制技术是时代的前沿，也是各行各业应用的趋势，应该加以快速推广。本文主要就语音控制系统的设计进行了研究，同时对语音控制系统如何融入整个人机交互的智能系统做了阐述。运用实例证明，本文构建的语音控制系统简捷、有效。当然，因语音自身的复杂性，以及周边环境的影响，今后语音控制系统应在容错、降噪等方面进行深入研究。

参考文献

[1] 金鑫. 基于LD3320的语音控制系统设计实现[J]. 电脑与信息技术, 2011, 19(6):38-39.

[2] 郑微. 基于DSP的智能语音控制系统设计[J]. 传感器与微系统, 2012, 31(2)：48-50.

[3] 夏峰. 语音控制的多功能车载终端系统的设计与实现[J]. 机电一体化, 2013, 6(9)：173-174.

[4] 于春雪. 嵌入式语音控制选单系统的实现与应用[J]. 电声技术, 2012, 2(1)：13-14.

* 中国南方电网有限责任公司科技项目(030600KK52140058)

责任编辑郑练

Intelligent System Research based on Voice Control Human-computer Interaction

LIANG Hanquan, CHEN Jinbiao

(Foshan Power Supply Bureau, Guangdong Power Grid Co., Ltd., Foshan 528000, China)

Abstract：The voice control is one of the most promising emerging technologies, and it currently has been widely used in automotive terminals, intelligent robot, etc. The application of speech recognition in the toy car is studied. By DSP chips for voice control system based on a highly integrated design, use the double silicon wheat noise reduction to achieve the audio data clearly. Based on DTW algorithm and dynamic template matching, the input speech in signal endpoint is detected, and someone's isolated word is recognized. When multiple semantic approximation vocabulary is failed to be correctly identified, provide selection processing, make the speech engine timbre and tone color different for the flexible processing, improve the recognition rate and the user experience. The speech recognition is tested in the normal life environment, and it can adapt to application in daily life or work environment. The results show that the scheme and algorithm has accurate recognition effect.

Key words:voice control, human-computer interaction, intelligent system, research

收稿日期：2015-05-15

作者简介：梁汉泉(1962-)，男，高级工程师，主要从事软件工程及智能化应用等方面的研究。

中图分类号：TP 183

文献标志码:B