基于机器学习和儿童神经心理行为检查量表鉴别孤独症谱系障碍和全面发育迟缓儿童的研究

2023-11-01 02:17周刚张晓斌曲行达罗美芳彭琼玲马丽亚赵众

中国当代儿科杂志 2023年10期

周刚张晓斌曲行达罗美芳彭琼玲马丽亚赵众

（1.深圳大学机电与控制工程学院，广东深圳 518060；2.深圳市光明区疾控中心，广东深圳 518107；3.深圳市宝安区妇幼保健院发育行为儿科，广东深圳 518102）

孤独症谱系障碍（autism spectrum disorder,ASD）是一类以社交障碍、重复刻板行为、兴趣狭隘为特征的神经发育障碍［1］。ASD早期与全面发育迟缓（global developmental delay, GDD）存在相应症状的重叠。ASD患儿在语言［2］、运动［3］、社交［4］等方面往往存在不同程度的发育滞后，而GDD 患儿早期也可能出现社交互动能力欠佳等表现，这就使得早期两类儿童容易混淆。因此，如何快速准确鉴别ASD与GDD具有重要临床意义。

2016年金春华团队在0～6岁儿童神经心理发育量表的基础上修订并编制出儿童神经心理行为检查量表2016版（以下简称“儿心量表”），该量表信效度良好［5-6］。新版儿心量表增加了交流互动警示行为能区（以下简称“警示行为能区”），能够有效鉴别正常儿童和ASD 儿童［7］，然而，并无直接证据表明该能区能有效鉴别ASD 与GDD 儿童。有研究显示，警示行为能区能以77%的准确度鉴别ASD 和GDD 儿童［8］，然而，目前尚未有研究探索其他能区是否有助于鉴别ASD和GDD儿童。

近年来，机器学习（machine learning, ML）的广泛应用为提高ASD 早期筛查、检测和诊断的准确性和可靠性提供了新的机会［9-10］。国际上已有诸多学者将ML应用于ASD的筛查和诊断，并获得了很好的效果［11-12］，展示了ML在筛查ASD方面的强大性能。然而，虽然ML在ASD分类方面的应用较多，但目前国内外尚未发现有研究应用ML算法区分ASD和GDD儿童。本研究旨在利用ML的算法探索儿心量表哪些指标能有效地鉴别ASD 和GDD 儿童，并验证警示行为指标是否会被ML算法优先选中为最重要的指标，为ASD 与GDD 儿童的快速鉴别提供新的思路。

1 资料与方法

1.1 研究对象

回顾性选取2019—2022 年就诊于深圳市宝安区妇幼保健院儿童心理行为康复科门诊，并初次诊断为ASD 或单纯GDD 的18～48 月龄儿童为研究对象。样本共包含277 例ASD 和415 例GDD 儿童，所有儿童均未接受过专业康复训练。

ASD组纳入标准：（1）在社区健康服务中心初筛阳性后，经≥2 名的主治医生级别儿童发育行为医生严格按照精神障碍诊断与统计手册第5 版（Diagnostic and Statistical Manual of Mental Disorders,Fifth Edition, DSM-5）中ASD 的诊断标准［1］进行确诊；（2）儿童孤独症评定量表（Childhood Autism Rating Scale, CARS）得分≥30 分。排除标准：有明显出生缺陷或肢体残疾（如视听觉丧失）的患儿。

单纯GDD 组纳入标准：（1）在社区健康服务中心初筛阳性后，经≥2 名的主治医生级别儿童发育行为医生严格按照DSM-5 中GDD 诊断标准［1］进行确诊；（2）2个或以上的发育维度没有达到预期的发育标志，即发育商（developmental quotient,DQ）＜70 分；（3）无法接受系统性智力测验，病情的严重程度无法确切评估［13］。排除标准：患ASD、有明显出生缺陷或肢体残疾（如视听觉丧失）的患儿。

本研究已通过深圳市宝安区妇幼保健院医学伦理委员会审批（LLSC-2021-02-7-14-KS）；患儿及父母自愿配合参与评估，并签署知情同意书。

1.2 儿心量表评估

由具备儿心量表主试资格的测评师与患儿进行一对一互动式测评，严格按照指导手册上的操作标准施测，对受试者在大运动、精细运动、适应能力、语言、社会行为及警示行为6大能区的发育程度进行评估。每个能区的结果用智龄表示，用DQ（DQ=测验月龄/实际月龄×100）衡量儿童的发育情况［7］。每个被试者共得到13个指标评分，即大运动智龄、精细运动智龄、适应能力智龄、语言能力智龄、社会行为智龄、警示行为智龄，以及大运动DQ、精细运动DQ、适应能力DQ、语言能力DQ、社会行为DQ、警示行为DQ、综合DQ。

1.3 数据集

智龄作为儿心量表的直接评测结果，可以判断儿童个体智能是否达标，而DQ 由智龄计算得来，是儿心量表评估测试儿童发育情况的主要指标［7，14］。一般来说，智龄衡量的是个体纵向发展上各维度的发育程度，不宜作为群体评价指标。然而，鉴于ML的主要工作是将所有被试者进行分类，除DQ外，本研究仍将智龄作为指标之一纳入了特征集。因此，ML 过程使用的原始数据集为692（被试数）×13（特征数）的矩阵。

1.4 ML过程

整个ML 的程序运算均在MATLAB（2021a）中实现。本研究采用包括支持向量机（support vector machine, SVM）、线性判别分析（linear discriminant analysis, LDA）、随机森林（random forest, RF）、集成学习（ensemble learning, ENS）和K近邻（K-nearest neighbor, KNN）5种常用的ML分类器来进行分类任务，以探索各分类器的分类效果和最优模型下对应的特征集。

本研究将13 个特征输入分类器，采用前向特征选择的方法训练并测试ML模型。通过使用前向特征选择，每个分类器都能得到不同数量下的最高分类准确度的特征组合。

为了最大限度地减少潜在的过拟合问题，本研究在ML训练模型和测试模型中实施留一交叉验证（每次抽出一个被试作为测试样本）的方法。分类的准确度、灵敏度和特异度作为分类器的评价指标。准确度定义为在两组中正确分类的被试样本的百分比；灵敏度为正确区分ASD 的人数占所有ASD 人数的百分比；特异度为正确区分GDD的人数占所有GDD人数的百分比。

1.5 统计学分析

采用SPSS 26.0 软件进行统计分析。正态分布的计量资料用均数±标准差（±s）表示，两组间比较采用两样本t检验；非正态分布的计量资料以中位数（四分位数间距）［M（Q1，Q3）］表示，组间比较采用Mann-WhitneyU检验。计数资料以例数或百分比（%）表示，组间比较采用χ2检验。绘制各模型鉴别ASD 的受试者操作特征曲线（receiver operator characteristic curve, ROC 曲线），并计算曲线下面积（area under the curve, AUC）。P＜0.05为差异有统计学意义。

2 结果

2.1 两组患儿一般情况比较

本研究共纳入692 例患儿，男性526 例，女性166 例，中位入组月龄为24.8（22.3，27.5）个月。ASD组277例，GDD组415例，两组患儿性别构成（χ2=0.198，P=0.656）和入组月龄（Z=0.198，P=0.647）比较差异均无统计学意义。

2.2 两组患儿儿心量表评估结果比较

ASD 组和GDD 组患儿精细运动智龄、适应能力智龄、语言能力智龄、社会行为智龄、警示行为智龄、大运动DQ、精细运动DQ、适应能力DQ、语言能力DQ、社会行为DQ、警示行为DQ、综合DQ 得分比较差异有统计学意义（P＜0.05），见表1。

表1 ASD组与GDD组患儿儿心量表评估结果比较［M（Q1，Q3），分］

2.3 ML分类ASD与GDD患儿的结果

5 种ML 分类器的分类准确度随特征数量的变化而变化，见图1。对于ENS 分类器，特征数为1时，准确度为78.90%（灵敏度：82.67%，特异度：76.39%），被选中的特征是警示行为DQ。该分类器最高准确度为86.71%（灵敏度：83.75%，特异度：88.67%），模型包含4 个特征：警示行为DQ、警示行为智龄、大运动智龄和语言能力智龄。对于KNN 分类器，特征数为1 时，准确度仅为64.31%（灵敏度：98.56%，特异度：41.45%）。当特征数等于2 时，准确度为77.89% （灵敏度：74.37%，特异度：80.24%）。使用6 个特征时准确度最高，为81.21%（灵敏度：74.73%，特异度：85.54%），这6个特征分别是：警示行为DQ、语言能力DQ、精细运动智龄、适应能力智龄、大运动DQ和语言能力智龄。SVM、LDA和RF分类器的准确度随特征数变化的浮动较小。对于SVM分类器，使用6 个特征时准确度最高，为79.77%（灵敏度：70.76%，特异度：85.78%），这6 个特征分别是：警示行为DQ、语言能力DQ、社会行为DQ、语言能力智龄、精细运动智龄和适应能力智龄。对于LDA 分类器，使用7 个特征时准确度最高，为79.91%（灵敏度：68.59%，特异度：87.47%），这7 个特征分别是：警示行为DQ、语言能力智龄、社会行为DQ、大运动DQ、适应能力智龄、精细运动智龄和社会行为智龄。对于RF 分类器，使用8个特征时准确度最高，为79.19% （灵敏度：70.04%，特异度：85.30%），这8 个特征分别是：警示行为DQ、社会行为智龄、大运动DQ、精细运动DQ、社会行为DQ、适应能力智龄、语言能力智龄和综合DQ。见图1、表2。ENS 分类器的最大AUC 达到了0.909（P＜0.001），且所有分类器的AUC均大于0.85（P＜0.001），这表明所选的分类器性能均表现良好，见图2。5 个分类器最高准确度下的混淆矩阵见表3。

图1 特征数与分类器准确度的函数曲线每条折线代表对应分类器的分类准确度随所选特征组合的变化，标记的方格点代表该分类器的最高准确度。［SVM］支持向量机；［LDA］线性判别分析；［RF］随机森林；［ENS］集成学习；［KNN］K-近邻。

图2 SVM、LDA、RF、ENS和KNN分类器最高分类准确度对应的ROC 曲线［SVM］支持向量机；［LDA］线性判别分析；［RF］随机森林；［ENS］集成学习；［KNN］K-近邻。

表2 5个ML分类器的最高准确度、灵敏度和特异度

表3 各个ML分类器的最高准确度下的混淆矩阵（例）

3 讨论

本研究纳入277 例ASD，415 例GDD，共692名研究对象。其中ENS 分类器的最高分类准确度为86.71%（灵敏度：83.75%，特异度：88.67%，AUC：0.909），该分类效果高于罗美芳等［8］在类似样本情况下使用ROC 曲线分析的结果（准确度：77.81%，灵敏度：75.00%，特异度：79.80%，AUC：0.835）。另外，Chen 等［15］使用ROC 曲线分析方法对130 例ASD 和86 例GDD 进行分类，其分类准确度为87.50%（灵敏度：89.20%，特异度：84.90%，AUC：0.910）。本研究的分类准确度略低于Chen等［15］结果。可能的原因是本研究样本量更大，更大的样本量意味着纳入临界值附近被试的概率增大，从而会削弱ML的分类效果。以上结果表明，ML在鉴别ASD和GDD儿童方面能够获得较高的分类准确度，且可靠性良好，对未来临床上快速鉴别诊断ASD与GDD提供了一定的参考价值。

为了提高适用性，儿心量表设置6大能区全面评估儿童的发育情况，但对于区分ASD 和GDD 来说，并非所有能区都能发挥作用。本研究将儿心量表的大运动、精细运动、适应能力、语言、社会行为和警示行为6 大能区共13 个指标全都纳入特征集，ENS分类器选中4个特征（警示行为DQ、警示行为智龄、大运动智龄和语言能力智龄）时，获得超过86%的准确度。该结果表明，临床上只需要对警示行为、大运动和语言能力3个能区进行测试，便能较准确地对ASD 和GDD 进行区分，能有效提升筛查的效率。

既往研究已经证明只使用警示行为能区能够有效鉴别ASD 和GDD［15］，而本研究发现其他能区可以为鉴别ASD和GDD提供帮助。SVM和KNN分类器达到最高准确度时都提取了6个特征，且准确度均超过79%。同时，LDA 和RF 分类器在分别提取7个和8个特征时，也分别获得超过78%的准确度。值得指出的是，警示行为DQ在本研究中起到重要作用，其原因是5个分类器均在首个特征选中警示行为DQ，而ENS 分类器仅选取警示行为DQ作为第一个特征就取得78.90%的准确度。以上结果表明，警示行为能区在检测ASD 方面确实能发挥重要作用，但是搭配儿心量表其他能区的指标，可以进一步提升准确度。这表明其他能区的指标能起到一定的辅助作用，这对改进诊断方法有一定的指导意义。

尽管本研究采用ML的方法提高了鉴别ASD和GDD 儿童的效率和准确度，但仍然存在一些局限性。例如，遗传、孕产期和家庭教育已经被证明会影响ASD和GDD的发生［16］。由于本研究中部分被试的既往史、抚养人水平和家庭教育情况等信息未录入系统，导致无法将其纳入ML 的特征集中。后续的研究可以考虑丰富被试的相关社会人口学信息，进一步提高ML的分类效能。其次，儿心量表作为一种问卷需要专业评测师操作，其人工操作的主观性无法避免。而基于客观指标作为数据，采用ML方法预测分类是当前研究的重要方向。既往研究显示，客观指标在识别ASD 儿童方面表现出色。Crippa等［17］将15例ASD儿童和15例正常儿童纳入研究，利用简单的上肢运动提取7个客观运动学特征，可以准确地分类ASD 和正常儿童（准确度为96.70%）。Li 等［18］将14 例ASD 儿童和16 例正常儿童纳入研究，借助运动追踪技术确定9 个运动参数，ML 的最大分类准确度可达86.70%。值得注意的是，以上研究的样本量较小，而本研究在相对大样本量的情况下通过ML选出的特征同样具有良好的分类效果。这不仅弥补了ML应用于鉴别ASD 与GDD 领域的空白，同样可以对未来基于客观数据鉴别ASD 与GDD 提供一定的参考价值。

本研究创新地采用ML的方法，使用儿心量表数据对277例ASD儿童和415例GDD儿童进行分类预测，获得了良好的预测结果。进一步证实警示行为能区在检测ASD 方面效果显著，并且发现联合其他能区指标可以获得更好的预测效果，为临床快速准确鉴别ASD和GDD提供了可行的方法。

利益冲突声明：所有作者声明无利益冲突。