基于共识选择健康测量工具对粗大运动功能评估88项和66项测量学属性的系统评价

2022-11-29 06:36王以文陈功勋朱登纳

中国循证儿科杂志 2022年5期

王以文陈功勋朱登纳史惟

粗大运动功能量表(GMFM)是由加拿大运动医学专家Russell于1989年使用经典理论制定的形成性量表，用于测量脑性瘫痪(简称脑瘫)患儿粗大运动功能及随时间或干预而出现的运动功能改变，是目前脑瘫患儿粗大运动评估中使用最广泛的量表[1]。GMFM由5个能区组成：A能区：卧位与翻身，B能区：坐，C能区：跪与爬，D能区：站立，E能区：行走和跑跳，每个能区包括不同项目内容。GMFM于1989年发表时包括85项内容，后来增加至88项，称为GMFM-88，2000年使用项目反应理论基于Rasch分析法对GMFM-88进行了信度和效度分析，确立了GMFM-66新版本[2]。

患者报告结局测量工具(PROM)允许患者通过认知与判断直接报告自己的健康结果，在医学研究中具有重要意义。PROM在开发及测量学属性研究中偏倚不可避免，这影响了其临床应用推广。2010年[3]由荷兰、美国、西班牙等研究机构的心理测量学专家提出了基于共识选择健康测量工具的标准(COSMIN)，详细介绍了规范制定PROM系统评价的COSMIN方法，并在2018年实施更新[4]，制定了 COSMIN偏倚风险清单[5]，以指导研究者与临床实践者选择最合适的PROM。国内外使用COSMIN对PROM进行评价的文献逐年增加[6,7]，但目前国内尚无对GMFM-88的系统评价，现有的GMFM-66的系统评价对评价过程未进行详细描述。本文使用COSMIN方法对GMFM-88和GMFM-66进行系统评价，探讨COSMIN方法对现场观察性量表评估时的相关事项，同时比较GMFM-88和GMFM-66测量学属性。

1 方法

1.1 研究设计系统评价。系统检索和筛选GMFM-88和GMFM-66的文献，以COSMIN偏倚风险清单评价GMFM-88和GMFM-66的内容效度和其他测量学属性，本文按系统综述/Meta分析写作规范(PRISMA)[8]撰写。

1.2 检索策略

1.2.1 检索数据库和时间英文数据库：MEDLINE、Embase，中文数据库：SinoMed；建库至2022年4月21日。

1.2.2 检索词脑瘫儿童，GMFM，COSMIN，量表的心理测量学属性。采用主题词与自由词相结合的方式行文献检索，其中测量学属性检索词参考Terwee等[9]开发的经过验证的高灵敏度搜索过滤器。

1.2.3 不同数据库检索式检索语言为简体中文和英语。人工检索纳入文献的参考文献(包括系统评价/Meta分析)。中英文检索式和检索截屏见本文附件1(http://www.cjebp.net/CN/10.3969/j.issn.1673-5501.2022.05.003)。

1.3 文献筛选方法使用EndNote删除了重复文献；由评估者王以文和陈功勋分别阅读文献题目、摘要和全文，排除：①书籍、会议论文、动物实验和无法获得全文的文献；②以GMFM-88或GMFM-66作为结局测量工具的文献；③GMFM-88或GMFM-66作为对照性量表验证其他测量工具测量属性的文献；④全文非中文和英文文献。遇有分歧先2名评估者讨论解决，不能确定与史惟讨论协商解决。

1.4 数据提取 ①选择GMFM评估工具推荐的评估类数据提取量表；②王以文提取GMFM-88数据，陈功勋提取GMFM-66数据，如遇困惑与史惟讨论协商解决；③数据提取内容包括：第一作者、发表年份、量表名称、研究对象及其来源、地区、样本量、研究对象年龄、男女比例、量表维度数与条目数、量表维度、各条目采用的评分方法、重测时间、9种量表测量学属性、疾病特征数据(疾病人群、疾病严重程度或脑瘫粗大运动功能分级系统的分级范围)。

1.5 评价过程及GRADE证据质量评级

1.5.1 偏倚风险评价使用COSMIN偏倚风险检查表[4]评估所纳入的测量学属性研究的方法学偏倚风险。COSMIN偏倚风险检查表包括3个部分共10个框目，①量表内容效度(框目1和2)：量表开发和内容效度；②量表内部结构(框目3～5)：结构效度、内部一致性和跨文化效度；③量表其他测量学属性(框目6～10)：信度、测量误差、校标效度、假设检验和反应度。每个框目评估1项测量学属性，每项测量学属性研究的偏倚风险可以评估为非常好(V)，足够(A)，模糊的(D)，不适用(N)，不足(I)；依据每个框目中条目的最低评级确定该研究的方法学质量[10]。如果1篇文献同时评估了多个测量学属性，将每个测量学属性作为独立项目单独评估。最终评价结果由2名评估者讨论决定，存在分歧时与史惟协商解决。

1.5.2 测量学属性的质量评价由评估者陈功勋和王以文参照Terwee等开发的在COSMIN测量学属性质量标准，单独评价量表的9种测量学属性。内容效度的质量评价使用“良好内容效度的10条评价准则”和“单个研究内容效度评定指南”，评价为充分(+)、不足(-)、不一致(±)或不确定(?)；其余8个测量学属性质量评价根据“更新的测量学属性优劣评价标准”,评价为充分(+)、不足(-)或不确定(?)[10]。

内容效度质量是PROM最重要部分，COSMIN将量表开发过程纳入内容效度总体评价，内容效度总体评分需要综合量表开发过程、内容效度研究和评估者评分3方面的结果，从评估量表的相关性、全面性和可理解性开展评价[5]。

1.5.3 证据汇总和证据质量分级若某一测量特性在各项研究中均为充分(+)或不充分(-)或不确定(？)，则此测量特性的总体评级亦为充分(+)或不充分(-)或不确定(？)。若某一测量特性在各项研究中得到的评价不一致，且造成评价不一致的原因无法解释，则此测量特性的总体评级为不一致(±)。最终评价结果由2名评估者讨论决定，或与史惟协商解决。

根据“改良的GRADE证据质量评级”标准，证据起始为高质量，考虑偏倚风险(研究的方法学质量)、不一致性、不精确性及间接性进行降级，最终证据质量分为高、中、低和极低4 个级别。依据证据客观评价结果形成推荐意见，并对推荐意见进行强度标注[10]。

2 结果

2.1 文献检索和筛选结果图1为文献纳入和排除流程。初检获得文献285篇，剔除167篇重复文献，通过阅读题目和摘要排除85篇文献，33篇文献阅读全文筛选，删除15篇文献，手工检索纳入文献的参考文献中2篇文献符合纳入标准，共纳入20篇文献，GMFM-88和GMFM-66分别有11篇和6篇文献，GMFM-88和GMFM-66共同纳入的有2篇文献，1篇GMFM内容效度文献[11]。

图1 文献筛选流程及结果

2.2 GMFM-88和GMFM-66测量学属性相关研究的基本特征表1显示，内容效度以外的19篇文献中，2000年前2篇，～2010年9篇，～2020年6篇，～2022年2篇；GMFM语言版本：英语6篇，汉语5篇，西班牙语3篇，韩语2篇，荷兰语、波斯语和泰语各1篇；研究来自国家：中国5篇(其中台湾省2篇)，加拿大3篇，美国和韩国各2篇，荷兰、西班牙、伊朗、比利时、泰国、巴西和哥伦比亚各1篇；GMFM-88应用年龄0～20岁，样本量39～173例，女性23.1%～54.0%，覆盖了脑瘫严重程度的所有级别；GMFM-66应用年龄0～17岁，女性26.3%～70.0%，覆盖了脑瘫严重程度的所有级别。

2.3 内容效度 GMFM-66开发过程评价依据GMFM-88的开发过程[1]。本文涉及GMFM开发过程的文献有2项研究[1,2]，检测到关于GMFM内容效度1项研究[11]，由于GMFM-66删减22个条目，GMFM-88已不能作为GMFM-66的内容效度研究证据，没有文献支持GMFM-66的内容效度，只能基于量表开发过程和评估者评分开展内容效度总体评分。

表2显示，GMFM-88内容效度总体评价，有中等级别，证实相关性为足够(+)、全面性为足够(+)，低级别证据，可理解性为足够(+)。GMFM-66内容效度总体评价，低级别证据，相关性为不一致(±)，可理解性为不确定(？)；中等级别证据，全面性为足够(+)。

表2 内容效度研究方法学质量和测量学属性评分

2.4 GMFM-88和GMFM-66除内容效度外的测量学属性纳入GMFM-88的13篇文献中涉及了测量学属性21项，GMFM-66的8篇文献中涉及了测量学属性20项。具体评价见本文附件2(http://www.cjebp.net/CN/10.3969/j.issn.1673-5501.2022.05.003)。

2.4.1 内部一致性表3显示，GMFM-88内部一致性3项[13,18,22]研究，样本量分别为50、115、65例，均使用Cronbach'sα系数作为评估内部一致性指标，方法学质量评价非常好(V)，Cronbach's α系数为0.78～0.99，测量学属性评分为充分(+)，GRADE证据级别为高。GMFM-66西班牙语版本内部一致性1项[28]，使用McDonald's ω系数研究内部一致性。方法学质量为非常好(V)，测量学属性评分为充分(+)，GRADE证据级别为高。

2.4.2 信度表3显示，GMFM-88组间信度5项[1,17-19,22]，组内信度7项[1,15-17,20-22]。使用组内相关系数(ICC)，或进一步细化为ICC2,1、ICC3,1作为评估指标。结果显示GMFM-88具有足够的组间信度和组内信度，组内相关系数均>0.70，测量学属性评分为充分(+)，GRADE证据级别为高。

表3 其他测量学属性的偏倚风险、质量评价和证据级别

GMFM-66组内信度7项[1,20,22,24,26-28]，组间信度5项[20,22,24,26,27]，采用ICC，结果显示具有足够的组间信度和组内信度，组内相关系数均>0.70，测量学属性评分为充分(+)，GRADE证据级别为高。

2.4.3 结构效度表3显示，1项[23]重新构建GMFM-66的Rash分析结果显示，<5%的剩余项目内聚拟合度值>3.0，表明具有良好单维性，验证了结构效度，研究方法学质量评估为非常好(V)，测量学属性评分为充分(+)，GRADE证据级别为高。

2.4.4 测量误差表3显示，GMFM-88测量误差2项[15,17]，文献[15](n=60)方法学质量为足够(A)，测量误差结果显示标准测量误差 (SEM)=1.60，最小的实际差别(SRD)=3.14。文献[17](n=51)方法学质量非常好(V)，SEM=1.60，SRD=3.14，由于2项结果均无最小可测重要变化(MIC)数据，无法与MIC比较，因此测量学属性评估为不确定(？)，GRADE证据级别为高。

2.4.5 效标效度表3显示，1项[19]将GMFM-88评分和神经肌肉系统缺陷程度分类和美国脑瘫学会障碍分级与治疗性分级进行相关性研究，本文视其为效标效度研究，因其不是与公认的金标准进行比较，方法学质量为模糊(D)。相关性范围0.67～0.75，测量学属性评分为不确定(？)。偏倚风险降2级，样本量<50，精确性降2级，GRADE证据级别为极低。

2.4.6 假设检验表3显示，假设检验属性包括平行效度和区分效度假设检验，1项[13]GMFM-88平行效度假设检验的研究，在115例脑瘫人群中分析了GMFM-88与儿童残疾评定表(PEDI)、儿科结局数据收集工具(PODCI)、儿童健康问卷(CHQ)3种评估量表中的运动能区分值的Spearman’s相关性，结果显示GMFM-88与PEDI(r=0.91)、PODCI(r=0.88)、CHQ/ITHQ(r=0.74)的运动能区分值高度相关，以此评价GMFM-88的平行效度属性研究，方法学质量非常好(V)，评分为充分(+)，GRADE证据级别为高。

GMFM-88的区分效度2项[13,19]，文献[13]比较了GMFM-88在偏瘫型脑瘫、痉挛型双瘫和痉挛型四肢瘫分数差异有统计学意义，文献[19]比较了脑瘫人群和正常儿童GMFM-88分数差异有统计学意义。2项区分效度研究方法学质量评价均为不足(I)，评分为充分(+)，GRADE证据级别为极低。

GMFM-66平行效度假设检验1项[25]，在115例脑瘫患儿中验证GMFM-66和PEDI的运动能区的 Pearson's相关性系数(0.83～0.90)。方法学质量评估为非常好(V)，测量学属性评分为充分(+)，GRADE证据级别为高。

GMFM-66区分效度检验1项[2]，比较了GMFM-66在偏瘫型、痉挛型双瘫和痉挛型四肢瘫分数差异有统计学意义。区分效度研究方法学质量为不足(I)，评分为充分(+)，GRADE证据级别为低。

2.4.7 反应度 9项GMFM-88反应度相关研究。表3显示，3项研究进行了有关效标的反应度评价。其中1项[1]研究将治疗师及家属对患儿变化评分作为效标与GMFM-88分数变化进行相关性研究，相关性为0.50～0.82，与假设检验相符，评分为充分(+)，偏倚风险评为模糊(D)；1项研究[14]显示家属对患儿变化评分与GMFM-88改变分数间的Spearman’s相关系数为0.50，偏倚风险评为模糊(D)，评分为充分(+)；1项研究[22]使用治疗师评估患儿变化程度作为效标，受试者工作曲线(ROC)下面积方法评估效标反应度，AUC=0.784，评分为充分(+)，偏倚风险评为模糊(D)。故效标反应度评分为充分(+)，证据级别为中等。

表3显示，平行效度的反应度2项。1项[16]为韩国版GMFM-88和粗大运动治疗评估(GMPM)数值变化有较高相关性(r=0.762～0.884 )，方法学质量均非常好(V)，评分为充分(+)。1项[20]通过效应尺度(ES)的方法，发现GMFM-88和GMFM-66有相近的反应度评分为充分(+)，但方法学质量评为模糊(D)。故GMFM-88平行效度的反应度，评分为充分(+)，偏倚风险不降级，GRADE证据级别为高。

表3显示，区分效度反应度4项[1,12,14,15]，分别进行了不同年龄、不同严重程度和不同分型、脑瘫与正常人群、脑瘫及脑损伤急性期人群GMFM-88变化值的比较，结果显示方法学质量为模糊(D)或不足(I)，评分为充分(+)，GRADE证据级别为低。

GMFM-66的反应度4项[2,20,22,24]，其中对不同严重程度和年龄亚组的GMFM-66分数变化值1项[2]，其方法学质量评估为不足(I)，评分为充分(+)。通过 ES的方法GMFM-66平行反应度2项[20,24]，其方法学质量评为模糊(D)，评分为充分(+)。使用治疗师评估患儿变化程度作为效标1项[22]，ROC下面积方法评估效标反应度，方法学质量评为模糊(D)，评分为充分(+)。改良GRADE证据级别为低。

3 讨论

内容效度是量表最重要的测量学属性[5]，内容效度总体评价包括量表开发阶段、内容效度研究和评价者评分。本系统综述只检索到史惟基于ICF-CY的脑瘫GMFM-88的内容效度分析[11]，没有检索到GMFM-66内容效度的研究，GMFM-88的内容效度阐述了GMFM-88评估内容与ICF-CY量表的对应关系。而GMFM-88和GMFM-66拥有共同的量表开发阶段，虽然量表开发者在GMFM开发阶段[1]表述了其主要评估卧位与翻身、坐、跪与爬、站立、行走和跑跳等5个领域，本研究认为对粗大运动构念描述还是不够清晰，故偏倚风险评估为不足(I)，GMFM-88的内容效度相关性证据为中等，GMFM-66内容效度相关性证据级别为低。观察性量表与PROM在评价可理解性上有所不同，因为PROM可理解性评估的对象多为受试者本人，而观察性量表可理解性对象为测试者。GMFM-88和GMFM-66使用者手册描述显示有多名治疗师参加过多次小组会议[31]，对项目和格式问题提供了反馈性意见，效度研究后对13名治疗师进行了问卷调查，治疗师对GMFM的内容和4分的评分制均感到满意。但因GMFM开发年代久远，对量表开发过程描述不清，尤其是可理解性方面，由此本研究把偏倚风险评为模糊(D)，而且没有有关可理解性的内容效度研究，故GMFM-88和GMFM-66可理解性证据等级为低。

2003年Russell等[23]重新构建GMFM-66的Rash分析已经验证其为单维性量表，这与Marina[30]进行的系统评价结果一致,而未检索到GMFM-88结构效度相关文献。文献[28](2022年)的内部一致性研究对量表的5个部分分别评价，却未对整个量表进行评价，存在一定不合理性。相比之下，GMFM-88做了多个内部一致性评估，结果提示有较高的内部一致性。GMFM-88 GMFM-66均有较高证据级别的组间信度和组内信度，这也与既往系统评价结果一致[29,30]。

效标效度和效标反应度都需要与金标准对比，但粗大运动功能评估没有真正意义的金标准，而且GMFM-66并不属于GMFM-88的短缩版，也不属于严格意义上的金标准。Russell等将父母或治疗师评估患儿的变化作为金标准[1]，GMFM-88有1项类似的效标效度研究[19]，3项效标反应度研究[1,14,22]虽然评估为充分(+)，仍由于方法学质量的缺憾被降为模糊(D)。Wang等[22]在2006年的反应度研究中，使用治疗师评估作为评价功能改善的结局标准，应用ROC曲线下面积研究反应度，显示GMFM-66较GMFM-88有更好的校标反应度，这与史惟使用效应尺度为指标比较2个反应度结果类似[20]，因为未使用COSMIN推荐的更佳方法，方法学质量评估为模糊(D)，评分为充分(+)，证据质量等级为中等，这与既往系统评价结果一致[31]。

根据各种测量学属性的定义，反应度与假设检验的属性区别在于反应度是多次测量分数变化值之间的比较，但如果作者既比较了首次测量数值间的区别又进行了改变分值间的比较，就等同于同时完成了假设检验和反应度的评价[19]。根据COSMIN 偏倚风险清单使用者手册，假设检验的平行效度研究旨在验证两种评估工具的相关性方向和幅度是否与预测一致，两个量表的相关性可以作为平行效度检验的良好方法，但不应当使用P值来表达相关程度，比如t检验的P值和单因素方法分析的P值作为平行效度检验的方法[3]，因为通过P值无法判定相关性系数与0相差多少，为此本研究将使用P值来表达平行效度结果的文献的方法学质量评为不足(I)。本系统评价纳入GMFM-88和GMFM-66文献中平行效度多采用相关性为判断指标，所以平行效度和平行效度反应度研究质量较好，证据级别较高。假设检验的区分效度也存在同样问题，建议使用结果相关性是否和预期一致作为评估结果，不建议使用不同组结果差异是否有统计学意义(其中取决于样本量)，所以Melissa等[13]使用单因素方差分析、重复方差分析等以P值是否存在显著差异的偏倚风险评为不足(I)。ES和SRM(Standardised Response Mean)并没有被COSMIN推荐为评价反应度的合理指标，但由于ES和SRM长期以来一直作为反应度的传统评价指标，既往发表了众多文章将ES作为反应度指标，因此不建议立即将其抛弃[31]，本系统评价将以ES为反应度指标的文献[14,20]质量评价为模糊(D)。因此GMFM-88和GMFM-66区分效度及区分效度反应度证据级别为低或极低证据等级。

本文不足与局限：本文使用中英文作为检索语言，会遗漏其他语种测量学属性研究，如Ferre-Fernández等在2021年用以西班牙语发表了一篇关于GMFM的跨文化效度研究[31]，因语言原因未纳入本研究，导致针对跨文化效度测量学属性的COSMIN评价缺失。由于能力评估类量表使用者是评估者本人，不需要患者或照看者理解量表条目，使用COSMIN对此类量表进行系统评价可能低估量表可理解性证据质量等级。

4 结论

本研究尝试使用COSMIN方法对GMFM-88和GMFM-66的测量学属性进行系统评价，显示GMFM-88比GMFM-66内容效度证据等级高，二者均有较高证据的信度研究。GMFM-88在内部一致性、测量误差方面比GMFM-66有更多证据支持，GMFM-88缺乏结构效度研究。GMFM-88和GMFM-66均有高证据的平行效度和平行效度反应度，低质量证据级别或极低质量证据级别的区分效度和区分效度反应度，GMFM-66比GMFM-88有更高的效标反应度。本研究为使用COSMIN方法评价现场评估类量表积累经验，研究显示虽然COSMIN方法并非针对现场评估类量表而开发，但仍可作为一种现场评估类量表测量学属性评价方法。