动物实验系统评价中应用GRADE系统的实例解读

2019-12-27 07:25赵冰姜彦彪尚志忠张哲文张婷耿劲松李博马彬

中国循证心血管医学杂志 2019年11期

赵冰，姜彦彪，尚志忠，张哲文，张婷，耿劲松，李博，马彬

对动物实验进行系统评价，不仅可降低其结果向临床转化时的风险[1,2]，且有利于基础研究领域的资源整合，尤其当研究问题涉及无预期益处的潜在危害时（如毒理学、环境流行病学）[3,4]，进行实验动物可能是提供唯一相关数据的证据来源。但需注意证据体的总体质量是影响决策的关键因素[5-7]，2019年笔者团队基于GRADE工作组的动物实验小组的理论，对GRADE在动物实验系统评价中的应用原则进行详细说明[8,9]，目前越来越多发表的动物实验系统评价开始使用GRADE方法对其证据质量进行分级[10-12]。

因此，为使读者更加深刻理解和使用GRADE-animal的工具在动物研究系统评价中的应用。本文以一篇干预性研究《脑肠肽对心力衰竭状态下小/大鼠病死率和心血管结局的影响：动物实验系统评价》[10]为例，对GRADE系统在动物实验系统评价中应用进行详细解读。

1 评估原则和内容

GRADE系统在临床前动物实验系统评价中的应用原则依然遵循GRADE系统的基本原则，但又存在一定差异[8,9]。

一般而言，动物随机对照实验的起始证据级别为“高”，5个降级因素包括：①偏倚风险；②不一致性；③不精确性；④发表偏倚；⑤间接性。动物观察性研究的起始证据级别为“低”，但何时升级或如何确定升级因素，目前尚存在争议，仍需今后进一步研究[13-15]。如在不同物种间得到的效应的方向和大小一致，则可升级；此外，在环境健康领域，如动物种属和模型的结果一致时，也可考虑升级。但在考虑升高证据质量理由之前，必须先考虑所有降低证据质量的标准，若上述任一方面存在严重局限性，很少进行升级。

2 评估步骤和过程

本文示例文献[10]纳入的动物实验类型为“随机对照试验”，因此，本文将以其主要结局指标“病死率”为例，详细解读如何实施和考虑5个降级因素。

2.1 偏倚风险SYRCLE动物实验偏倚风险评估工具，是目前公认的用于动物实验内在真实性评估的工具，其具体内容和解读请参见相关研究[16-18]。

示例文献以表格形式呈现其偏倚风险评估结果，共纳入4篇研究。偏倚风险评估结果如图1所示，就“病死率”而言，考虑到盲法、动物安置随机化和随机化结果评估对其影响较小，且实验组间基线特征的相似性较好，数据报告完整。因此，可考虑在不一致性方面不降级。

2.2 不一致性在不一致性方面，动物实验系统评价同临床试验系统评价基本一致，可通过可信区间的重叠程度，所纳入研究的效应量大小及方向、P值和I2值进行描述[19,20]。但由于动物实验属于探索性实验，异质性可被预期。加之部分异质性可能被实验人员刻意引入，在这种情况下，鉴于这部分异质性可解释，在评估一致性时可不考虑。因此，动物实验系统评价中，对不一致性评价的核心，首先：①如何归纳和解释异质性；②如何解释I2值。其次，异质性可能源于种属，应注意来自物种内和物种间两方面的不一致。如当分析中所有种属动物都显示出相同的效应方向时，那么不同物种间（包括人）的干预效应更加有力。在这种情况下，即使结果总体上有异质性，也不会降低一致性。

示例文献中，“病死率”Meta分析结果如图2所示，共纳入4个研究，研究间异质性结果为P=0.31，I2=15%，异质性较低，研究对象均为大鼠，且各纳入研究显示出相同的效应方向。因此，在不一致性方面不考虑降级。

2.3 不精确性动物实验系统评价对证据体的不精确性评估也主要考虑：①纳入研究的样本是否达到最优信息样本量（OIS）；②可信区间的宽窄程度两个方面[20]。在解释临床前动物实验研究结果时，通常认为效应量的方向比其大小更为重要。因此，对于精确性的判断主要基于可信区间是否包含了无效值。对于效应量的大小可考虑进行分级，如SMD＜0.2为小，0.2～0.5为中，＞0.8为大。目前还没有严格、清晰的判断标准，建议如果可信区间包含了两个或多个级别，则可考虑降级，同时需要给出合理的解释。

示例文献中，如图2所示：病死率的合并RR=0.83，95%可信区间较宽[0.46,1.47]，且4个研究共纳入实验动物，总样本量较小（4个实验，共121只实验动物），且单个研究样本量介于9-29间，故针对该指标而言，其不精确性方面需降级。

2.4 发表偏倚是否对发表偏倚进行科学评估，对解读动物实验系统评价结果的可信度具有重要意义[21-23]。在保证动物实验系统评价检索策略广泛而全面的前提下，除可借鉴漏斗图、Egger's检验、Begg's检验等用于发表偏倚的评估外[24]，还需要对一些特殊情况进行有效评估，笔者和Laman等的研究对此进行具体补充说明[8,25,26]。

示例文献中，并为对发表偏倚进行评估。对“病死率”而言，纳入实验数量仅为4个，且究均为阳性小样本研究。此外，该研究并未检索Embase、BIOSIS Preview等数据库，由于检索的不充分不全面，无疑会增加发表偏倚的可能[27]。因此，综合考虑需降级。

2.5 间接性GRADE系统中对动物实验系统评价提出了两个层面的间接性：第一层面是从临床前动物实验向临床前PICO的间接性，第二层间接性是从动物模型（临床前动物实验）到人类（临床PICO）的间接性，这也称为可转化性[28]。

示例文献中的间接性主要源于：①研究纳入了不同品系的大鼠，研究对象间因种间差异而使间接性增加；②纳入的动物在诱导心衰模型过程中，所采用的方式略有差异；③纳入动物的饲养环境不同；④研究对象的给药周期与剂量存在差异；⑤在结局指标的测量时间亦存在差别；⑥在可转化性层面，啮齿类动物与人类的生理病理机制存在差异。综合以上结果，故考虑在间接性方面降级。

图1 SYRCLE偏倚风险评估结果（病死率）

图2 脑肠肽对心力衰竭动物模型病死率指标影响的森林图

3 小结

本文选取2015年发表的一篇干预性动物实验系统评价作为示例，使用GRADE系统对其进行证据体质量评价，5个降级因素中，就结局指标“病死率”进行分析，其在不精确性、发表偏倚和间接性方面需进行降级处理。因此，“病死率”指标的证据体级别为“极低”。

尽管GRADE工作小组和一些学者均已发表多篇文章[15,19,24,28-30]对GRADE系统存在的问题进行了详细说明和解读，但笔者认为对该示例文章证据质量评价时仍存在较大困难和争议，例如样本量大小和可信区间宽窄程度如何进行定量/分级描述；此外，针对连续型变量如何进行精确性的评价。因此，虽然推荐GRADE系统作为评估动物实验系统评价证据质量的工具，今后还需在一些条目的细则方面进行不断探索，例如如何计算OIS和定义临床相关阈值（不精确性）；对于动物实验系统评价种内及种间的一致性（不一致性）该如何进行细化和规范；如何定义可转化性/间接性及规范升级标准等。今后有必要建立更为详尽的临床前干预性动物研究GRADE分级框架，以更好地解释动物研究系统评价结果，评估证据质量，从而降低动物实验结果向临床转化的风险。