基于汉字语音映射的脑电信号直译方法研究

2023-12-07 12:55伍茂贤尹念陈仪琳
癫痫与神经电生理学杂志 2023年5期
关键词:解码受试者语音

伍茂贤,尹念,陈仪琳

脑机接口技术(brain-computer interface, BCI)的研究是人工智能技术的前沿领域,能够直接通过脑电信号(electroencephalography, EEG)实现人与外界的信息交互[1-2]。BCI的原理是当人受到外界刺激或自身有某种意识活动时,大脑会产生微弱的神经电信号,从而传到大脑皮层形成一定的规律性特征。因此,可通过对EEG的收集,然后对其进行特征识别,将EEG特征与人的意识活动相联系,最后通过计算机将意识活动进行编码,产生控制指令,从而实现对外部设备的控制。

目前,为了实现用户与设备之间的交互,已开发出了许多方式,最广泛使用的是稳态视觉诱发电位(steady-state visual evoked potentials, SSVP)[3]及运动想象(motor imagery)[4]。尽管这些方式已在基于EEG的脑机系统中取得了很大的进展,但在一些场景下,它们依然无法实现对设备的有效控制。这是由于其信息处理太慢,或需要大量的用户支持,使得其在现实生活中的长期应用存在一定的限制。

目前,利用BCI解码语音已有较多研究,有研究者针对孤立的音素或单音节诱发的EEG进行了解码,证明了语音诱发的EEG可分性[5-7]。Kaongoen等[8]的研究让受试者重复阅读4个语音命令,对在试验刺激下的EEG进行了分类识别,平均分类准确率为38.2%。Kumar等[9]研究了23位参与者对30个单词进行阅读任务时的EEG并进行了分类识别,识别准确率约为67.03%。虽然以往的研究证明了从EEG解码语音的可行性,但解码的准确率和质量较低。因此,为了获得更高的准确性,本研究将机器翻译方法与传统EEG识别方法相结合,也以此提供一种更自然的方式用于探索使用者的内在需求。从概念上讲EEG解码语音任务和机器翻译任务的概念相似性,这两种情况下的目标都是在同一底层分析单元的两个不同表示之间构建一个映射[10]。虽然这两个任务的输入存在不同的EEG和文本,但是现代机器翻译体系可直接利用神经网络从数据中学习特征,这表明机器学习算法可以有效地在EEG识别场景下应用。为了验证这种方法的有效性,本研究设计了汉字语音的EEG采集任务,将语音信息与EEG特征形成映射,分别利用共空间模式(common spatial pattern, CSP)联合支持向量机(support vector machines, SVM)和基于映射数据的循环神经网络(recurrent neural network,RNN)来分别实现EEG到某种形式的语音输出,通过对识别准确率的统计分析,验证基于汉字语音映射的EEG识别方法能否为实现更舒适的人机交互提供依据。

1 对象与方法

1.1 研究对象

本试验研究对象为10名身心健康的在校大学生,其中男生5名、女生5名,均为右利手,平均年龄(23±1.4)岁。试验前24 h试验对象均未饮酒和饮用其他刺激性饮料。所有研究对象坐在距离显示屏1 m的椅子上进行试验,整个试验过程完全放松,身体未进行其他动作。所有研究对象在试验前均签署了《知情同意书》。

1.2 方法

本试验设计“吃”“喝”“穿”“拿”“看”“戴”共6个汉字作为试验数据集,这几个汉字在日常生活中十分常见,属于基础生活所需的功能动作。试验过程中,每个字都会简短地出现在电脑屏幕上,信号采集试验流程图见图1,单次试验时序见图2。试验开始时,屏幕持续显示2 s黄色,表示空闲时间;接着持续显示1 s的红色,提示受试者做好准备;然后持续显示4 s的汉字,受试者在汉字显示的时间内大声地朗读;接着屏幕持续显示2s白色,受试者休息;单次试验结束。每个汉字在一组试验中随机出现15次,每位受试者共需完成5组试验,并在每组试验结束后休息5 min。因此每个汉字提示可获得75组试验数据。

图1 EEG采集试验流程图

图2 单次试验时序图

试验所用的脑电采集设备为美国Neuroscan公司的SynAmaps系统,试验采用64导电极,遵循国际10-20系统安装电极,电极安装位置见图3,所有电极的阻抗维持在5 kΩ以下。接地电极置于前额以去除50 Hz的人工频干扰,信号采样率为250 Hz,分别保存(4 Hz~7 Hz)、(8 Hz~15 Hz)、(16 Hz~31 Hz)的相关信息,EEG经过4 Hz~45 Hz的带通滤波器滤波后存入计算机以供分析。受试者的语音音频信号以约24 kHz的专用麦克风通道同时记录,并与EEG进行时间对齐。

图3 EEG采集的电极位置图

1.3 CSP+SVM识别方法

1.3.1 CSP特征提取

CSP是一种主要用于提取两类模式特征值的空间滤波算法[11]。它是基于将原始的多通道信号再分解为空间模式,这些空间模式从两类EEG的数据中提取,以最大化它们的差异。目前CSP已成功应用于EEG特征的提取。CSP的计算过程如下:

假设两类汉字朗读时采集的第i次任务EEG分别为D1(i)和D2(i)矩阵,数据为N×T维,其中N为采集EEG时的电极通道数,T为每个通道所采集到的样本数。

(1)

其中trace(D)为矩阵D在对角线上的所有元素的求和。将多次试验的D1(i)和D2(i)分别叠加平均得到各自的平均协方差矩阵C1和C2,再将C1和C2进行相加得到混合协方差矩阵E。由于E为对称矩阵,对E作主分量分解:

E=GATT

(2)

其中G为E的特征向量矩阵,A为E的特征值矩阵。对特征值进行降序排列可得到白化变换矩阵P,对C1和C2进行变化变换和分解:

P=A-1/2GT

(3)

(4)

λ1+λ2=I

(5)

由公式(5)可推导出,当矩阵H1的特征值越大,H2的特征值就会越小,反之亦然。所得到的投影矩阵为W,并对信号D利用分解矩阵Z进行分解:

W=BTP

(6)

Z=BTP

(7)

EEG 经滤波器滤波后得到分解矩阵Zj(j=1,2,…,2m;2m

(8)

CSP的一个关键限制是只能用于两类范式,然而本研究涉及多类信号的特征提取[12]。为了解决这个问题,许多研究人员提出了将CSP由二分类扩展到多分类的算法,目前主要包括一对一CSP和一对多CSP[13-14]。其中一对一CSP算法计算量并未明显增加,并且分类性能较优。因此,本文采用一对一CSP算法,将6个汉字两两成组来转化成二分类模型进行处理。假设将“吃”“喝”“穿”“拿”“看”“戴”的多类EEG数据分别标记为A、B、C、D、E、F类,两两分别配对通过CSP算法得到15个空间滤波器。然后用这些滤波器对某次试验中的EEG分别提取相应的特征值,特征值经过各自分类器进行识别。具体流程见图4。

图4 一对一的CSP多类算法流程图

1.3.2 SVM分类识别

SVM是一种监督式学习算法,当样本量存在限制时,SVM能够有效平衡模型的学习性能与繁杂性之间的矛盾。SVM的目的是寻找两类样本之间的最优超平面,该平面能够有效地区分样本,并且最大化样本间的间隔。

假设存在一个样本集(xi,yi)(i=1,2,…,n),其中xi为空间模型中的EEG特征样本,yi为样本类别目标值,n为样本总数。经学习得到的最优分类函数为f(x):

(9)

K(x,xi)=exp(-g‖x-xi‖2)

(10)

wTx+b=0

(11)

(12)

1.4 基于汉字语音映射的脑电波直译方法

1.4.1 语音转录

Mel倒频谱系数(mel-frequency cepstral coefficients, MFCC)通常是从语音音频中提取的特征,目的是使得音频内容更加清晰[15]。MFCC的提取流程见图5。

图5 MFCC的提取流程图

预加重处理。采用高通滤波器对音频信号s(n)进行处理,滤波器传递函数:

H(z)=1-az-1

(13)

其中a常系数值,取值为0.97。

加窗处理。将信号划分为每一帧来进行处理,每帧上有N个采样点。设第m帧的音频信号为s(n,m),加窗后的信号:

(14)

其中0≤n≤N-1。

信号经快速傅里叶变换(fast fourier transform, FFT)[16]处理后:

(15)

取频谱的模平方应得到功率谱,对功率谱进行滤波,得到一组能量系数ei(i=1,2,…)。对能量系数进行离散余弦变换(discrete cosine transform, DCT),得到MFCC参数Mi(i=1,2,…,k),k为阶数。

(16)

其中p为滤波器的个数。

1.4.2 循环神经网络(recurrent neural networks, RNN)

图6 RNN架构图

ht=Wf(ht-1)+Whxxt

(17)

(18)

在本研究中,RNN的输入为记录EEG向量的序列,输出为预测的MFCC序列。在模型训练阶段,为了使得模型输入/出的值尽可能接近目标的MFCC值,即为每个汉字分配尽可能高的概率值,本研究使用交叉熵函数作为预测值与实际观测值之间的偏差度函数[19]。在训练过程中,随机选择的一个数据子集计算交叉熵,将神经网络的参数往着减少此类偏差的方向改变。

交叉熵损失函数[20]:

(19)

其中,x为样本,a为预测值,y为实际观测值,n为样本总量。

2 结果

2.1 分类识别结果

每位受试者朗读6个汉字各75次,并对这几个汉字语音提示的6类EEG进行分类识别。10位受试者的分类准确率见图7。在基于语音映射的RNN识别方式下,识别准确率相对CSP+SVM方式有明显提升。10名受试者在CSP+SVM方式下平均分类准确率为(36.53±3.17)%,在语音映射RNN方式下的平均分类准确率为(69.93±3.07)%。

图7 平均分类准确率示意图

2.2 训练数据量对RNN识别性能的影响

利用训练数据对神经网络重复训练时,RNN的分类准确率会有一定的提升,当重复训练15次以上时,分类准确率可以达到75%以上,这是属于可接受的语音转录的边界,重复训练次数与分类准确率的函数关系见图8。

图8 重复训练次数对RNN分类准确率的影响示意图

3 讨论

本研究基于6类基本汉字数据集,比较CSP+SVM方式与基于汉字语音映射的EEG直译方式对汉字语音刺激下的EEG的识别性能。本研究结果发现,CSP+SVM方式下平均分类准确率为(36.53±3.17)%,使用语音映射RNN方式的的平均分类准确率为(69.93±3.07)%,识别准确率明显优于CSP+SVM方式,并在重复训练后准确率可达到75%以上,表明相对于传统方法的单词识别准确率大多在40%以下的表现[21],本研究基于汉字语音映射的EEG直译方式下的分类识别准确率有较为明显的提升。

本研究中采用基于汉字语音映射的RNN识别方式能够较为明显地提升识别准确率,主要归因于3个因素。第一,已知RNN可以从复杂序列中提供优异的信息提取[22-23],特别是已经被证明此方法适用于机器翻译,而本研究也是一个类似于语音解码的任务。但也还存在几个附加条件,在本研究中,将数据限制在6类汉字中,人为地消除了数据量覆盖率低会出现的一些问题。因此,需要更多的数据找到神经网络学习语音与EEG特征之间的规律,使其能够更好地执行和推广到更一般的语言形式。第二,本文最基本的标记元素为单个字的汉语语音,而不是之前方法中的音素[5-6]。本研究针对覆盖范围和可区分性之间做了平衡,即需要覆盖所有语音空间所需的音素比单个词汇少得多,但单个音素的比单词短,因此彼此之间的区别更小。并且,在汉字发音过程中,任何特定音素的产生都会受到它们之间或共发声音素的强烈影响,这也会降低其可区分性。第三,通过改变EEG传统的解码方式,将EEG与语音的MFCC特征进行映射,建立了一个全新的特征空间,强调了RNN从数据中学习特征的实际价值,也提出了一种全新的特征映射类型。

综上所述,当本研究中EEG识别方法接近于实地应用时,即当长期植入应用于一个受试者时,可用的训练数据量将比本研究中单词量大一个数量级,这表明汉语的词汇量和灵活性是需要扩展的。另一方面MFCC语音特征可能无法使用,即受试者可能失去了说话的能力,这可能会降低识别性能。本研究所提出的方法对汉字语音范式脑机接口的设计具有一定的参考意义,旨为下一代的人机交互系统和未来的人机通信提供依据。

猜你喜欢
解码受试者语音
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
《解码万吨站》
涉及人的生物医学研究应遵循的伦理原则
解码eUCP2.0
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
NAD C368解码/放大器一体机
Quad(国都)Vena解码/放大器一体机