基于MVDR 后置滤波的多通道回声消除算法研究

2022-08-02 09:34马耀国梁晋韶
电声技术 2022年6期
关键词:单通道后置麦克风

马耀国,梁晋韶,何 璐

(中国移动通信集团广西有限公司,广西 南宁 530000)

0 引 言

在科技发展迅速的今天,视频会议普及度越来越高,尤其在后疫情时代,线上视频会议有效地降低了疫情传播风险,并且提高了协同工作的效率[1]。如今,线上视频会议已经融入各行各业,得到了企业和个人的认可。视频通话过程中,用户端的扬声器和麦克风的非线性特性[2-4],会使麦克风采集的回声信号失真明显,单通道的声学回声消除(Acoustic Echo Cancellation,AEC)方案在线性回声处理之后仍残留大量非线性回声,且能量与近端语音相当。此时需要高强度的非线性回声抑制(Non-Linear Processing,NLP),但对近端语音也会产生严重抑制,甚至完全消音,影响用户体验。

对于单通道AEC 方案在双工场景下近端语音被抑制的难点,本文引入环形4 麦克风阵列,提出基于最小无失真方差响应(Minimum Variance Distortionless Response,MVDR)[4-5]后置滤波的多通道回声消除方案,对各通道采集信号分别线性回声处理后,使用MVDR 后置滤波提升近端语音能量、抑制残留非线性回声[7],最后只需低强度非线性回声处理即可消除残留回声,进而保留更多的近端语音能量,改善近端语音通透性,增强视频通话体验。

1 单通道回声消除

图1 所示为免提语音通信系统,麦克风采集信号中包含了近端语音信号、扬声器播放信号直达声及反射声,如果不加处理直接返回给远端,远端就会听到对方的声音以及自己延迟后的声音,会造成困扰,干扰通话的进行。因此需要回声消除算法将麦克风采集信号中的远端信号消除掉,再发送给远端,这样,远端就只会听到对方的声音,而没有自己的声音干扰。

图1 免提语音通信系统

传统的回声消除算法包含了延时校准模块、线性回声消除模块以及非线性回声消除模块[2-3]。远端信号在播放前可能存在缓冲导致延迟播放,远端信号在空气中传播反射再被麦克风采集也需要一定时间,导致远端信号和采集信号中的远端信号并不是时间序列对齐的,此时需要进行延时校准才能让远端信号和采集信号中的远端信号处于合理的范围,便于归一化最小均方自适应滤波器(the Normalized Least-Mean-Squares,NLMS)消除线性回声,否则会导致NLMS 收敛慢,影响线性回声消除效果。设备的摆放位置、房间的混响、噪声等均会对延时校准模块效果产生一定波动,为了控制变量,本文的测试数据均为延时校准后的数据,所以不包含延时校准模块。

如图2 所示为单通道回声消除框图。单通道回声消除方案采用归一化最小均方自适应滤波器算法(the Normalized Least-Mean-Squares,NLMS)作为线性回声消除模块,消除信号中的线性回声之后,通过高强度NLP 进行残留非线性回声抑制,得到回声消除后的语音信号[2-4]。

图2 单通道回声消除框图

然而,扬声器、麦克风中存在非线性失真[4],使得麦克风采集的回声信号产生明显非线性失真,NLMS 处理后仍然会残留大量非线性回声,能量和近端语音相当。此时进行高强度的NLP 处理,近端语音也会受到严重抑制甚至消音,产生所谓“吃音”现象,双工的语音通透性受到挑战。

2 基于MVDR 的多通道回声消除框架

针对单通道AEC 方案的局限性,即残留非线性回声大、能量和近端语音能量相当、需要高强度NLP,本文引入多通道AEC 处理方案,采用MVDR作为后置滤波器提升近端语音能量、抑制非线性残留回声[7],只需低强度NLP 处理即可消除残留回声,进而保留更多的近端语音能量,改善双工场景下的语音通透性[8-10]。

MVDR 为固定系数的波束成形,最优权重系数如下所示:

式中:Wo H(w)是频域单通道信号各频点的最优权重系数,vH(w)是导向向量,Sn-1(w)是噪声的自功率谱函数。

于是,MVDR 滤波处理后的信号如式(3):

式中:Y(w)为MVDR后置滤波输出信号的频域表示,X(w)为输入信号的频域表示,最后Y(w)经过低强度的NLP 处理,得到最终的输出信号。

本文提出的方案结构如图3 所示。

图3 基于MVDR 后置滤波的多通道回声消除算法框图

4通道采集信号分别通过NLMS滤除线性回声,接着经过MVDR 后置滤波,提升近端语音能量、抑制残留非线性回声,最后通过低强度NLP 处理消除回声,得到增强信号。

相比单通道AEC 方案,本文方案使用了MVDR 后置滤波提升近端语音能量和抑制残留非线性回声,只需低强度的NLP 消除回声,最终近端语音能量可以保留更多,改善“吃音”问题,提升了会议通话体验。

3 实验仿真测试

本文实验音频采集均来自Respeaker_circle 的环形4 麦阵列设备,放音采用TCL F165C 32 寸电视放音,搭建视频会议场景进行仿真测试。仿真实验分为实时性验证、残留回声抑制能力、近端语音能量提升以及最终处理结果对比。其中残留回声抑制能力、近端语音能量提升的实验,对照组是单通道(单麦)信号进行NLMS 处理,实验组是4 通道信号进行NLMS 加MVDR 后置滤波器处理;最终处理结果对比的实验,对照组是单通道(单麦)信号进行NLMS 加NLP 处理,实验组是4 通道信号进行NLMS 加MVDR 加NLP 处理。

3.1 实时性验证

实时性要求指的是处理10 ms 的音频数据耗时需要在10 ms 以内。本文提出的算法在较低性能、低成本方案的移动平台上也能满足实时性要求。rk3399 的CPU 是由4 个小核(A53@1.5 GHz)和2 个大核(A72@2.0 GHz)构成的高性能移动平 台,mt6735 的CPU 是 由4 个小核(A53@1.3 GHz)构成的较低性能的移动平台。在两个平台上分别进行实时性测试,结果均能满足要求。具体地,本文算法的可执行脚本在各平台上分别处理事先录好的音频文件,统计总时长,将总时长除以分帧数量(每10 ms 为一帧),得到每帧的处理耗时,具体数据如表1 所示。

表1 各个处理器平台实时性分析

3.2 残留回声抑制能力

对照组是单通道(单麦)信号进行NLMS 处理,实验组是4 通道信号进行NLMS 加MVDR 后置滤波器处理,对比非线性残留回声能量如图4所示。其中,单麦NLMS 方案残留回声能量均值为-83.53 dB;本文方案残留回声能量均值为-88.58 dB,残留回声减小了6.05%。

图4 残留回声能量对比图

3.3 近端语音能量提升

对照组是单通道(单麦)信号进行NLMS 处理,实验组是4 通道信号进行NLMS 加MVDR 后置滤波器处理,近端语音能量对比如图5 所示。其中,单麦NLMS 方案近端语音能量均值为-89.70 dB,本文方案近端语音能量均值为-77.58 dB,提升了13.51%,并且4~8 kHz 频段抬升均值18 dB,提升了语音高频的清晰度。

图5 近端语音能量对比图

3.4 最终处理结果对比

对照组是单通道(单麦)NLMS 加NLP,实验组是4 通道NLMS 加MVDR 加NLP,最终处理结果对比如图6 波形对比所示。两个方案均没有漏回声,其中单通道(单麦)NLMS 加NLP 方案对近端语音抑制明显,能量波动大,甚至产生消音现象;本文方案对近端语音能量保持较为完整,幅值较为平稳,明显优于单通道(单麦)NLMS 加NLP 方案。

图6 最终处理结果对比

4 结 语

本文针对单麦AEC 方案的局限性,针对视频会议场景下近端语音通透性差的痛点,引入多通道AEC 方案,提出了一种基于MVDR 波束成形后置滤波器的多通道回声消除算法方案,将4 通道采集信号分别进行NLMS 滤除线性回声,然后通过MVDR后置滤波提升近端语音能量、抑制残留回声,最后只需低强度的NLP 消除残留回声,保留了更多的近端语音能量,提升了视频会议通话体验。

在实际会议场景下仿真测试发现,本文方案多抑制了6.05%的残留非线性回声,提升了13.51%的近端语音能量,并且只需低强度的NLP 即可消除回声,保留了较多的近端语音能量,提升了视频会议通话体验,最后还进行了实时性分析,本文算法可以在低成本移动平台上实时运行,具有很高的实用价值。

猜你喜欢
单通道后置麦克风
基于联合聚类分析的单通道腹部心电信号的胎心率提取
从随形走向赋意——以《人物拼贴》为例的主题后置式儿童美术教学策略
气氛及后置催化剂对平朔烟煤热解特性的影响
Traveling back in time in Singapore
汽车内麦克风阵列布放位置优化方法研究*
模拟电视发射机数字化改造方法的探讨
模拟电视发射机数字化改造方法的探讨
麦克风的艺术
讯飞输入法也能离线语音输入
麦克风