嗓音声学分析在临床医学领域的应用研究

2022-10-18 10:18吕士良

西北民族大学学报（自然科学版） 2022年3期

陈爽,吕士良

(西北民族大学中国民族语言文字信息技术教育部重点实验室,甘肃兰州 730030)

0 引言

人类嗓音的发音是由动能到声能的转化，此过程是在中枢神经系统支配下，通过呼吸动力系统、发声系统和共鸣构音系统的相互协调来完成，最终表现为用于交流的语音.随着现代科学技术的发展，将人的声音信号进行采集，转化成可视的声学信号进行分析研究成为病理嗓音研究的一个重要方法.嗓音的声学分析可用于评估病变的程度和范围、评估发声障碍的情况、对预后进行估计、判定治疗效果、辅助临床诊断等.本文将对病理嗓音的声学分析研究现状和存在的问题进行梳理和分析，指出病理嗓音声学分析相关研究方向和薄弱环节，为病理嗓音声学分析的临床应用提供参考依据.

1 临床医学领域嗓音声学研究现状

通过对20世纪80年代以来国内文献的整理，采用CNKI中文数据库进行“病理嗓音”、“嗓音”、“声学分析”、“声学检测”等关键词进行检索，共筛选出326篇相关文献，在CNKI网站进行发文量趋势分析，并将326篇文献导入citespace软件进行关键词聚类分析和关键词突显分析，得出了关于病理嗓音声学研究近年来在CNKI的发文量趋势(图1)、病理嗓音声学分析关键词聚类图谱(图2)、关键词突显(图3).

从图1可以看出，嗓音的声学分析在临床医学领域的相关研究近年来存在波动趋势，但总体呈上升态势.从21世纪开始，文献数量猛然增多，并保持在年均10篇以上，说明嗓音声学分析方法在临床医学领域的应用研究逐年增多.为进一步深入分析，通过citespace软件进行关键词聚类，以图谱方式对高频的关键词进行聚类分析，得出关键词聚类图谱(图2)，从中可以看出喉部器质性病变如声带小结、喉肿瘤等采用嗓音声学分析方法的较多，声学分析的方法成为研究病理嗓音的常用方法.此外慢性喉炎、发声障碍和嗓音障碍也是主要解决的问题，采用的方法主要是进行声学实验，提取相关嗓音参数进行统计分析.

图1 文献综合趋势图

图2 关键词聚类图谱图3 关键词突显图

在citespace中进行关键词突显分析时，将最短突显时间设置为2年，得到了自2000年以来受到关注和研究的18个关键词，从图3关键词突显图可以看出，自2000年以来，嗓音声学分析在临床医学领域应用的研究不断发展变化，声谱图、电声门图、声学测试等的研究出现较早，多集中在2000年到2009年，其中声学分析和电声门图的突显强度相对较大，突显持续时间长，说明这两个研究点受关注早，在较长一段时间内是研究的热点问题；关于嗓音疾病的声学研究如声带小结、声带息肉等则集中于2010年到2013年；2014年以来关于嗓音障碍、嗓音训练、嗓音功能等方面的研究成为主要趋势，其中嗓音训练的突显强度较高，是现阶段研究的重点，预计未来也将是研究的重点和热点.

语音信号本就是一种非线性、非平稳的信号，传统的声学参数提取将语音信号近似为线性信号，这样就影响了语音特征的有效性.目前对于非周期性信号常用的分析方法为非线性动力分析法，传统的声学分析是在周期性声学信号中寻找变异，而非线性分析在于寻找随机、无序的声学信号中的规律[1].除周期性嗓音信号之外，非周期性信号逐渐引起了研究者的重视，并开始进行相关研究，这也是目前及以后病理嗓音声学分析的一个方向.本文主要以“非线性分析”“病理嗓音”为主题在CNKI数据库进行搜索，共搜索出13篇相关文献并作出了主题分布图(图4).

图4 嗓音信号非线性分析主题分布图

通过图4可以看出，目前非线性分析方法主要集中在病理嗓音识别的研究领域.高俊芬[2]基于非线性动力学和高斯混合模型进行了病理嗓音的识别研究，研究表明非线性动力学分析方法能够弥补传统分析方法的不足，有效地分析病态嗓音，对喉部疾病的临床诊断具有一定的价值，同时也提出了特征提取和模型建立是涉及病理嗓音识别系统的重点和难点问题.周强等[3]采用多频带非线性分析和优化核(MK)主成分分析算法结合进行声带病变的识别研究，提出了多频带最大李雅普诺夫指数(MBLLE)，它能体现出各频带下的非线性特性，并能反映出人耳的听觉反映特性，实验表明将MBLLE和MK结合能将识别率提高至97.82%.上述研究虽然取得了一定的成果，但是仅限于病变嗓音的信号检测，并不能识别出具体的疾病种类.同时由于技术上的难点和理论的要求，非线性动力学分析在临床病理嗓音声学分析中应用较少，属于嗓音评估研究的新领域.

通过以上分析可以得出目前嗓音声学分析研究中针对嗓音信号非线性分析的研究较少，主要集中在对语音和嗓音声学参数的临床应用、声学分析与主观评估相结合以及嗓音电声门图检测方法的应用等方面.

2 语音和嗓音声学参数的临床应用

语音信号和嗓音信号中包含着各种参数，人类声音的产生是涉及空气动力、声带振动、声道共鸣的一个连续过程.因此，当人的发声器官出现病理变化时，不可能只是单一参数的改变，临床上采用语音和嗓音多参数分析的方法对病理嗓音进行声学分析.

在1994年声学分析研讨会上对语音声学信号进行了分类，将语音信号类型分成了三类：Ⅰ型：近周期性信号；Ⅱ型：包含间歇性信号、强次谐波或调制信号；Ⅲ型：随机或混乱信号[4].在病理嗓音的声学分析中将声学信号看作一个近周期性信号，因此对于语音和嗓音中周期性参数的分析应用最为广泛，其中涉及的常用参数有基频及其相关参数、振幅参数、共振峰参数、能量参数、倒频谱类参数等.

基频及相关参数如基频(F0)、基频微扰(Jitter)、基频标准差(F0_SD)等和振幅参数如振幅微扰(Shimmer)是反映嗓音强弱、高低以及规律性的重要指标.能量类参数如归一化噪音能量(NNE)、谐噪比(HNR)是反映声门闭合情况及嗓音中噪声能量大小的指标.这几类参数被广泛应用于喉部疾病、神经性病理嗓音、痉挛性发音障碍等病理嗓音的研究.用F0、F0_SD、Jitter、Shimmer评估声带息肉患者、早期喉癌患者、突变假声患者和健康组的声音质量，证明上述参数是评估持续发声过程中音高变化的重要指标[5].李云英[6]通过对100例慢性喉炎患者的声学分析发现疾病组的频率微扰、振幅微扰、归一化噪声能量值较健康组有显著性差异，且疾病组治疗前的上述参数值与治疗后值的差别有显著性意义.除用于嗓音疾病评估外，上述参数还用于研究手术治疗对嗓音的影响、术后嗓音的恢复情况及并发症的预测、言语治疗的效果评估等方面.

倒频谱是将一个语音信号的傅里叶变换经过对数运算后再进行逆傅里叶变换得到的具有高尖峰值的图形.倒谱突显峰值(CPP)是倒频谱相关的一个重要参数，其测量的是倒谱峰距倒谱回归线的距离.CPP可以很好的展示语音信号的谐波结构，反映信号的周期性，信号周期性强，峰值高，在声带小结、声带麻痹等嗓音障碍情况下，语音信号周期性弱，峰值低[7-8].余明强等[9]对声带息肉患者进行持续元音及连贯语音的倒频谱分析，表明了CPP对于区别正常嗓音和声带息肉患者嗓音较基频微扰和振幅微扰有较好的特异度和灵敏度.

共振峰参数是语音声学的重要参数之一，频率值受声道共鸣的影响，取决于声道的形状和大小，可以反映声道的传递特性，在研究声道共鸣腔相关疾病时常涉及共振峰参数的提取与分析.共振峰参数在儿童腭裂手术及术后治疗的评估中有着至关重要的作用.杨学财等[10]对健康儿童、腭裂术后未进行语音矫治患者、腭裂术后进行语音矫治患者的元音共振峰提取对比，矫治前组与矫治后组元音/e//i//u/的前三个共振峰频率的平均值差异均有显著统计学意义，矫治后组与正常组比较，元音/i/的第二和第三共振峰显著降低,表明腭裂修复手术并未完全恢复腭咽的闭合功能，而通过语音矫治和训练可改变咽腔的形状进而改善语音功能.

除了声学参数的结合分析外，其他相关参数结合分析研究也取得了一定的成果.嗓音障碍严重指数(DSI)是目前临床上广泛用于病理嗓音声学检查的一个多参数结合的新型指标.最早由言语学家Wuyts[11]提出，是多个指标综合的结果，包括了基频、基频微扰、最小音量(SPLmin)、最长发音时间(MPT)、空气动力学参数等，能够更加客观、准确的对嗓音质量进行测量和评估.DSI在国外已被视为嗓音疾病评估的客观标准，近年来在国内的相关研究也越来越多.许倩等[12]运用DSI对声带息肉患者手术前后及术后嗓音恢复情况进行评估，发现术前组的DSI值低于对照组，术后一周DSI值基本恢复正常，认为DSI可作为声带小结手术疗效评价的敏感指标.

虽然多参数的结合分析能加强结果的可靠性，但是参数过多有时会使声学分析更复杂而得出的结果相同或者没有意义，这会降低声学分析在临床的应用效率.如上述研究中不仅有DSI指数，还分析了基频微扰和振幅微扰、低高频谱能量比(L/HSR)、CPP的标准差(STD_CPP)、L/HSR的标准差(STD_L/HSR)及发音障碍倒频谱指数(CSID)等相关参数，这使得结果分析变的复杂.因此，在临床应用的参数选择方面，需要结合嗓音病理特征选取适合的参数，从而结合多种参数使分析既准确又有效率.

3 声学分析与主观评估相结合

综合病理嗓音声学分析的研究来看，目前还没有哪一种声学分析方法能够全面地反映出嗓音疾病的病变情况，临床上采用声学分析与主观评估相结合的方法评估病理嗓音的特征.

张武宁等[13]在许倩等人研究的基础上结合嗓音障碍指数量表(VHI)对声带息肉手术前后的嗓音状况进行分析，认为DSI能客观评估声带息肉患者的嗓音障碍程度，VHI评估能了解嗓音障碍对患者生活和心理的影响，两者具有较好的一致性.VHI量表是由Jacobson等[14]制定用于嗓音障碍患者自我评估的工具，其结果能反映嗓音障碍对患者生理、心理的影响.由于每个人对嗓音障碍的程度和影响感受不同，因此VHI对嗓音疾病的评估具有个体差异性和主观性，但是VHI可以了解不同嗓音疾病患者心理状态和疾病对患者生活的影响，为临床治疗和护理工作提供帮助.

另外，临床上常用的主观评估工具还有GRBAS听感知评估系统[15].GRBAS评估包括5个描述参数：总嘶哑度G、粗糙声R、气息声B、无力嗓音A和紧张嗓音S.采用4级评估量表：0正常，1轻度障碍，2中度障碍，3重度障碍.由专业的耳鼻喉科医生听患者声音后进行评分，要求医生有丰富的临床经验和专业知识.临床上常将GRBAS评估作为主观检测维度，声学分析作为客观检测维度，两者结合对病理嗓音进行综合评估，以加强评估的准确性和可靠性.Heikkinen等[16]通过声学分析和GRBAS评估对甲状腺或甲状旁腺术后声带麻痹进行筛选实验,结果术后的GRBAS等级评分(最小值>0)对预测声带麻痹具有高度敏感性(93%)，但只有50%的特异性，而术后的jitter值(最小值>1.60)有90%的特异性，50%的敏感性.将所有P<0.05的GRBAS评分和声学分析变量进行ROC分析，产生出了一个敏感度100%，特异度55%的检验值，说明将声学分析和GRBAS评估的结合能更有效地预测甲状腺或甲状旁腺术后声带麻痹的发生.

4 嗓音电声门图检测方法的应用

电声门图检测法是测试声门组织阻抗变化的一种有效方法.作为一项喉部功能检测技术,电声门图检测法是无创性的体外测试,在不影响发声条件下,用于测试声带的接触性和规律性，通常采用喉头仪采集完成.在发音时的声带振动过程中,声门阻抗的变化引起微弱的电流改变,由此在体表描记出声门开闭的曲线即电声门图波形.通过对电声门图波形信号进行声学分析，可以提供和普通声学分析相同的参数，临床上常将两种分析方法相结合对比研究.

于萍等[17]对153例嗓音障碍患者和80名嗓音正常者进行嗓音声学分析和电声门图分析的比较研究，发现除了基频微扰(Jitter)和振幅微扰(Shimmer)外，普通声学分析其他参数的可靠性和敏感性高于电声门图，认为在嗓音障碍的客观评估中应选择声学分析.刘睿清等[18]通过对比声带小结和局部声带肥厚患儿的嗓音声学分析和电声门图分析研究也印证了这一结论.上述研究都是针对电声门图和声学分析的共性进行对比研究，缺乏对电声门图和声学分析各自特异性的探索和结合研究，目前临床上关于这方面的研究较少.

综上所述，病理嗓音的声学分析虽然在临床上已经得到发展，但还有很大的研究空间，例如新的综合性参数探索、简化现有的多参数分析、与电声门图及主观评估的进一步结合研究等还有待发展.总的来说，上述病理嗓音声学分析都是针对Ⅰ型语音信号(近周期性信号)进行的，而实际上相关的病理改变会影响或改变声带的正常振动，产生Ⅱ型语音信号(包含间歇性信号、强次谐波或调制信号)甚至Ⅲ型语音信号(随机或混乱信号)，临床上在进行病理嗓音的声学分析时常忽略这些信号，把相关语音看成近似周期性信号进行分析.

5 结语

人类的语音信号是一种不稳定的复合信号，而病理改变常将这种信号复杂化.虽然对于病理嗓音周期性信号的研究在疾病评估、诊断、治疗等方面得到了一定的进展，但是目前嗓音的声学分析方法还无法全面地反映嗓音问题，因此加强声学分析与其他评估方式的结合研究，探索新的多参数结合分析，增加声学分析的稳定性和可靠性，是未来的研究方向.对于非周期性信号的研究目前还处在起步阶段，但是随着技术的进步和理论的成熟，预计将会在病理嗓音的识别、诊断、言语治疗等方面做出巨大贡献.