计算机辅助儿童语言发育迟缓检测研究综述

2022-02-12 09:47马孟星潘文林罗陈晨
关键词:口吃语音词汇

马孟星,潘文林,胡 洋,程 振,罗陈晨

(1.云南民族大学 电气信息工程学院,云南 昆明 650500; 2.云南民族大学 数学与计算机科学学院,云南 昆明 650500)

儿童语言发育迟缓(Children’s language development delay,CLDD)是指儿童语言能力落后于同龄人的状态[1].CLDD的主要临床表现有:吐字不清、口吃、词汇储备低、表达能力欠佳等[1-4].病情严重的儿童将面临语言交流、社会交往、生活适应和学习等方面的诸多困难[5].语言能力检测是一种发现CLDD病情的方法,传统检测是由医生或语言病理学家来实施,他们通过询问儿童一些问题,从儿童的回答情况中得到初步的诊断结果.目前专家资源严重缺乏,即使投入大规模资金培养相关专家也难以满足日益增长的诊断需求.

计算机辅助检测/诊断(Computer-aided detection/diagnosis,CAD)能够提高诊断的准确性,为专家提供有效的决策支持[6],减少专家的工作负担[7],但目前还不能代替专家做出判断[8],CAD提供的诊断结果一般也仅作为诊断参考和第2意见[6,9].以往CAD技术代指基于医学影像学的计算机辅助技术[10],随着近几年自然语言处理领域的飞速发展,使得实现基于语音识别的计算机辅助CLDD检测成为了可能,通过使用终端应用对儿童进行提问,采集儿童回答语音,运用CAD系统进行分析并提供初步诊断意见.在儿童发育期提早干预治疗是预防CLDD的重要手段,便捷化的检测方式可以提高儿童群体检测率,对提早发现病情有积极的作用.

文中将对儿童语言能力检测过程进行介绍,并从CLDD的构音、口吃、词汇储备、语言表达4种临床表现角度出发,归纳整理用于实现CAD系统的自动化评估技术发展现状.对CAD系统主要存在的问题进行梳理,并对研究前景进行展望.从语种、适用范围、录制规模等方面归纳梳理可用于CLDD自动化评估研究的语音数据集.

1 儿童语言能力检测概述

儿童语言能力检测可以对儿童语言能力的优劣进行评定,也可以对病理儿童的补救措施提供有用的诊断反馈和指导[11].低龄儿童不具备识别和手写书面文字的能力,许多常见的检测方法并不适用于存在语言障碍的儿童[12-13],因此在CLDD临床检测中,语言能力检测通常以口试的形式进行[1]:医生向儿童提出特定问题,并对其回答情况进行分析,从而评估儿童发音、词汇储备等方面的优劣.

语言能力检测的实现主要分为3个部分[14]:题目设计、检测实施、能力评估.题目设计是保证检测结果有效性的关键[12],检测实施与能力评估依赖于医生或语言病理学家.儿童语言能力的评估基线会因年龄、家庭地域环境等因素而存在一定差异[2,15-17].

图1 智能化语言能力检测

计算机辅助语言能力检测具有检测效率高、提升被检测人兴趣等优势[18].采用“人机对话”的形式进行信息采集,可以减少人力成本.图1为某公司在幼儿园对儿童进行语言能力检测.

2 CLDD检测自动化评估技术概述

CAD系统能够将儿童语言能力优劣以量化形式表现出来.实现CAD系统需要结合大量自动化评估技术,本节以CLDD的临床表现展开,归纳整理了近几年与CLDD临床表现检测相关的自动化评估技术研究进展.

2.1 构音评估

构音障碍表现为发声困难、发音不准、咬字不清、音量异常、声调速率异常、节律异常等[19],这使患者的语音不自然且让人难以理解.在构音评估过程中,医生会按照拼音选取不同的词汇领读,并要求儿童复述这些词汇,通过儿童的复述表现来做出诊断.

Laaridh等[20]提出构音自动化评估指标,从严重程度、可理解性、发音清晰度3个方面对构音障碍进行评分,即通过机器模型为检测语音给出评估分数.医学应用中,医生需要向患者解释评估模型做出的判断,由于机器模型的黑盒特性,给构音评估模型在医学上实际应用带来了困难,因此不少学者在评估模型的可解释性问题上进行深入研究.Ming等[21]探讨了构音障碍评估模型的可解释性,设计了可解释的神经网络体系结构模型,通过将声学特征映射到低维的潜在空间中,从而获得用于解释评估结果的相关信息.Daniel等[22]在低维潜在空间中成功编码了构音障碍的可解释特征,从鼻音、声音质量、发音精度、韵律等方面对评估结果进行解释,这有助于医生和患者更准确的理解评估模型的结果.

在借鉴各国的构音障碍评估研究时,需考虑当地语种的语言特性.普通话的音节一般由声母、韵母、声调3部分组成,其中声调是普通话中最为突出的声学特征.Mou等[23]进行了以普通话为母语的构音评估研究,并对普通话产生的声调特征进行深入探讨,Lin等[24]进行了发音信息对普通话声调建模和普通话识别的有效性研究.Zhang等[25]以音节和高频汉字混合训练的方式进行建模,并将其用于普通话语音识别.由于构音评估中回答内容相对固定,音节和汉字的混合训练方式可提高模型的识别精度.

面对构音障碍语音样本不足的问题,一类研究主要集中在数据增强上[22-26],通过技术手段模拟生成训练样本.另一类研究以迁移学习为基础[27-28],对健康语音或非同语种的构音障碍语音知识进行迁移,用于构音评估研究.

表1整理了近几年构音评估研究进展,研究角度有自动化评估指标、可解释性、数据增强方法、构音障碍语音识别等.

表1 构音评估研究进展

2.2 口吃评估

口吃是一种言语障碍,在说话过程中,个体确切地知道他希望说什么, 但是由于不自觉的发音重复, 延长或停顿, 打断了语言的流畅性.口吃发生的频率和症状的持续时间根据个人严重程度会有很大的不同,儿童口吃发生率约为5%[31-33].

口吃自动化评估系统已有较长的研究历史,Chee等[32]的研究综述中,概括了2种口吃自动化评估方法,第1种是通过计算口吃词汇数量占回答总词汇数量的比例来完成,第2种是测量口吃的持续时间,并与整段语音的总时间进行比较.受当时技术条件限制,文中仅对第一种口吃评估的实现技术进行展开介绍.Amir等[34]提出时域下衡量口吃严重程度的详细度量准则:言语流畅度评分(Speech efficiency score, SES),如式1所示,与传统的时域评估方法相比,去除语音段中的沉默时间段,以说话时长和有效时长的比例来衡量口吃的严重程度,并实验证明SES与主观口吃严重程度评分密切相关.Khara等[35]对口吃特征提取与分类技术进行整理,Gupta等[36]对口吃自动化评估领域的相关问题与技术进行了系统性梳理.

(1)

在以儿童为对象的口吃评估问题上,Alharbi等[37]一直致力于该问题的研究.2017年提出自动识别口吃事件模型,用于协助临床医生完成诊断任务[38].2018年提出轻度监督方法[39],用于识别执行标准朗读任务的儿童口吃片段.2020年评估CRF和BLSTM两种机器学习方法在检测口吃语音转录中口吃事件的能力[40].与国外相比,国内儿童口吃自动化评估研究相对匮乏.

表2整理了近几年口吃评估研究进展,研究角度有自动化评估指标、口吃语音片段识别、严重程度评分、儿童口吃评估等.

表2 口吃评估研究进展

2.3 词汇储备评估

年龄在2岁后词汇量仍小于30词的儿童可被定性为语言发育迟缓[2].词汇储备低是CLDD的临床表现之一.提问者向儿童提问,儿童根据问题进行回答,对儿童语音进行文本转录和词汇计数是一种词汇储备评估方法[45],使用自动语音识别系统[46](Automatic speech recognition, ASR)将语音信息转换为文本,统计出文本中的词汇数量.

近年来以深度学习为基础框架的ASR逐渐成为语音识别领域的主流处理办法,按照实现原理分类,模型的实现主要有CTC、RNN-T、Attention 3种形式[47].目前将应用于儿童语音识别的ASR性能提高到成人语音识别的ASR性能水平仍旧是困难的事情[48].儿童语音在声学上更加多样化[49],普适的语言能力标准是基于成人而建立的,在使用儿童定向语音做模型训练时,声学上的多样性会降低模型的识别准确性.Gelderloos等[50]发现使用成人定向语音训练的模型会比使用儿童定向语音训练的模型更加适用于儿童定向语音的识别.

中文体系下,中文文本没有直观的分词,汉字紧凑的交织在一起,这给词汇统计带来了困难,英文的书写方式在视觉上就有很直观的词汇数量体现[51],因此国内有不少学者在中文分词问题上进行了深入的研究.WMSeg是目前优异的中文分词模型之一,2020年在5个基准数据集上实现了中文分词领域的最佳成绩.[52]

表3整理了近几年词汇储备评估研究进展,研究角度有口语自动评分、数据增强方法、语音识别与转录等.

表3 词汇储备评估研究进展

2.4 语言表达评估

语言表达是指用口头语言和书面语言来表达自己的思想、情感,以达到与人交流的目的的一种能力[62].在医学评估过程中,医生会按一定规则选择不同词汇,根据词汇内容制作图片,让儿童看图说出图中的事物名称[1].这是一种限制回答主题的评估方式[45],如图2所示,在儿童理解图片内容后,需要儿童说出看到的水果(梨、苹果、香蕉),观察儿童是否能清楚的表达.

图2 语言表达能力评估

语言表达能力的评估较为主观[63],不同研究人员提出的评估细则也存在差异[63-65].在医学评估场景中,医生会将更多的注意力集中在关键词汇上,医生以儿童说出图片中的关键词汇数量来直观的评估其表达能力.以关键词数量来衡量儿童语言表达能力是一种弱化语法、词汇发音、流畅度的评估方法,该方法侧重于评估儿童的理解力和表达准确性.

在语音中找到特定的关键词或短语是语音自动处理的基本问题之一,该问题有2种解决途径:第1种是将自动语音识别(ASR)和文本匹配技术结合,在语音中进行预定义搜索和针对性搜索[66],即先将语音转换为文本,再通过文本匹配技术进行关键词匹配.ASR研究进展已在2.3小节进行介绍,文本匹配方面,Mozer et al.(2020)对100多种文本数据匹配方法进行了对比评价[67],并探讨不同参数、度量准则的选取对匹配结果的影响;另一种解决途径是为预先指定的词汇构建自定义检测器[66],即训练特定关键词的识别模型,从语音中直接识别关键词汇片段.关键词识别方面,Tabibian.(2020)综述中归纳梳理了口语关键词识别领域的特征提取、模型训练、搜索算法、阈值分割等方面的内容[68].从目前的研究现状来看,关键词识别的研究主要朝着降低资源需求和提高准确率的方向发展.

表4整理了近几年语言表达评估研究进展,研究角度有关键词边界定位、少示例或零示例关键词识别、低功耗关键词识别等.

表4 语言表达评估研究进展

3 数据集与性能评估

3.1 数据集

使用公共的数据集是各类自动化评估方法客观、公正的基础.当下可用于CLDD临床表现识别研究的数据样本匮乏,我们从CLDD临床表现角度归纳整理了相关数据集,如表5所示.

表5语言能力评估相关数据集

续表

3.2 性能评估

相关领域通常用精度(Accuracy, ACC)、查准率(Precision, P)、查全率(Recall, R)、F1度量、真正例率(True Positive Rate, TPR)、假正例率(False Positive Rate, TPR)和混淆矩阵等指标来评估模型的泛化性能.可以用正反例来标记语音片段是异常或正常,模型对语音片段的判断也可以使用正反例来衡量.

以口吃中延长音检测为例,语音段中所有延长音片段标记为正例,其余片段为反例.延长音检测结果可能为:真正例(TP)—模型预测为正例,实际为正例;假反例(FN)—模型预测反例,实际为正例;假正例(FP)—模型预测为正例,实际为反例;真反例(TN)—模型预测为反例,实际为反例.预测结果的对应关系见表6.

表6 混淆矩阵

精度(ACC)是分类正确的语音片段数量占总片段数的比例.查准率(P)是被正确预测的口吃片段数量与被预测到为口吃片段总数的比例.查全率(R)是被正确预测的口吃片段数与真实存在的口吃片段总数的比例.假正例率(FPR)是被错误预测的正常语音片段与总正常语音片段的比例.F1度量也称为Dice相似系数,可用来衡量预测结果的有效性.

ACC=(TP+TN)/(TP+TN+FP+FN)×100%

(2)

P=(TP)/(TP+FP)×100%

(3)

R=(TP)/(TP+FN)×100%

(4)

FPR=(FP)/(TN+FP)×100%

(5)

F1=(2×P×R)/(P+R)

(6)

4 问题与展望

4.1 存在问题

在计算机辅助CLDD检测领域中,主要存在以下问题:

1) 尚未有应用于检测CLDD的CAD系统.实现CAD系统需要大量的自动化评估技术,相关自动化评估技术的研究不够成熟,不能达到有效的识别效果,使得CAD系统研究进展缓慢.

2) 数据样本匮乏.可用于临床表现自动化评估的数据样本匮乏,公开的样本库的数据规模都很小.

3) 模型性能很难进行对比评估.学者在使用公开相关数据集时,往往会自行采集数据进行补充,实验性能评估不是建立在公共的数据集上.标注量、标签类型都得不到统一,很难对各模型的性能进行对比评估.

4) 自动化评价指标并未形成统一共识.CLDD临床表现的识别种类、评估程度等评价指标,在不同研究文献中存在一定差异,导致许多研究成果不能得到有效的整合与应用.

5) 自动化评估技术应用效果还不理想.许多文献中的实验是在小样本等特定条件下进行,一旦受测对象发生变化,结果就会不令人满意.技术实际应用过程中,还存在一些问题尚未得到解决:说话人的音色特征与构音障碍特征很难有效分离[22];语速变化会给口吃评估性能造成较大影响[41];儿童声学特征变化严重影响语音识别性能[60].

4.2 展望

应用于检测CLDD的CAD系统研究目前还处于初始阶段,对该领域未来的研究前景,我们展望如下:

1) 多模态表示学习.语音数据是CAD系统决策的主要信息来源,在检测过程中有很多体态特征可以被捕获,如脉搏、面部表情、肢体表达等,这些信息能够使决策结果变得更为准确,使用多源异构数据实现多模态表示学习研究[53,98]逐渐受到关注.

2) 提供更多的辅助诊断信息.在传统检测过程中,专家会考虑一些更细微的语言能力特征,如语言感染力、情绪表现、反应力等.相关评估技术具有开阔的研究前景,虽然个别领域已存在一定研究[99-100],但实际应用于语言能力检测的过程中,还有很多问题未被发现和解决.

3) 实现远程诊断.将云服务技术与CAD系统相结合,有望实现对专业资源有限的地区儿童进行远程诊断.技术的引入可优化传统的诊断流程,初步诊断地点可以从医院变为家中,初步诊断结果中可包含就医指导和恢复训练方案.

5 结语

计算机辅助CLDD检测研究具有重要的社会和医学价值,在目前CAD系统研究领域,将自动化评估技术应用于CLDD检测的研究极其匮乏.本文以CLDD临床表现展开,归纳整理各临床表现的自动化评估标准、技术研究方向、评估实现方法等方面的研究进展.我们正在着力于采集更多的检测数据,以便进一步评估计算机辅助CLDD检测的可行性.

猜你喜欢
口吃语音词汇
“维生素”大口吃
微信语音恐惧症
魔力语音
Magic Phonetics魔力语音
对方正在输入……
孩子口吃,家长巧应对
词汇小达人
词汇小达人
词汇小达人
词汇小达人