基于医疗大数据的比较效果研究设计要点述评与应用

2019-06-06 01:00刘程宇

中国药物经济学 2019年5期

吴晶朱玄刘程宇

随着医疗技术进步与人们健康意识提高，不断增长的医疗需求与有限的医疗资源之间的矛盾日益突出，这为医疗资源配置所需的更加系统科学的证据支持提出新的挑战。随机对照临床试验（randomized clinical trial,RCT）是评判药品疗效的金标准，但其试验条件严苛，并不能直接反映真实世界中的临床实践情况。同时，药品安全性和有效性证据的收集已不再被视为上市审批服务的“一次性评价”，而是一种贯穿于产品整个生命周期的全程评价，仅靠临床试验证据并不能满足这种需求。由此，基于“医疗大数据”的真实世界研究应运而生。

随着临床实践的信息化程度不断提高，药品、手术以及医疗器械等医疗干预情况及临床效果数据逐渐丰富，为基于真实世界医疗大数据的观察性研究的开展提供了充分条件，其可弥补RCT 研究外推性较差以及开展成本过高等缺陷。由于国内外经济社会发展水平、医疗卫生体制以及人民医疗需求不同，医疗资源配置决策需基于本国流行病学和疾病负担等本土化数据，不能直接套用他国研究结果。同时，随着医保精细化管理不断深入，我国医保部门已开始推行以价值为导向的战略性购买，如近年开展的创新药品医保准入谈判以及按病种付费等打包式购买方式。在医保支付方式改革中，打包付费（如门诊人头付费、住院病种付费）的实施也使得医院需要对手术、药品和耗材等医疗干预方式的价值进行评估，以控制成本，合理诊疗，实现医院可持续发展。这些新的需求和趋势都使得政府和医疗机构在决策时愈发重视基于本国医疗大数据的真实世界研究。

真实世界的医疗大数据通常样本量庞大且信息丰富，通过严谨地统计分析，可以用以探究临床实践中患者的用药情况、治疗干预效果、疾病发生风险以及经济负担等，为相关卫生政策制定提供证据支持。其中，治疗干预在真实世界中的效果评价是衡量其价值的重要维度，也是后续研究开展及政策制定的基础。此类研究即被称为“比较效果研究（comparative effectiveness research,CER）”。

1 基于医疗大数据的比较效果研究的内涵

美国患者中心结果研究所（The Patient-centered Outcomes Research Institute）将“比较效果研究”定义为“对比评价用于预防、诊断、治疗疾病和监测健康状况的不同干预措施或策略在真实世界中的患者获益和损害的研究”[1]。这段定义强调了比较效果研究的两个重要特点：1）比较效果研究需在真实世界情境下进行；2）比较效果研究是“头对头”设计，即设阳性对照组，而非安慰剂对照。因此，进行比较效果研究时，其产出指标为药品在真实世界中的相对效果（relative effectiveness），而非RCT 环境下与安慰剂相比的疗效（efficacy）或与其他阳性药品相比的相对疗效（relative efficacy）。

比较效果研究可根据研究时间设计的不同分为前瞻性和回顾性两种类型。前瞻性比较效果研究是指目标结局事件陆续发生于研究开始之后的纵向随访观察性研究，而回顾性研究则通常使用的是暴露和结局事件均已发生的二手数据，数据来源包括医保数据库、医院信息系统、疾病注册数据库、健康调查数据库、其他日常医疗照护数据等。我们主要讨论基于医疗大数据的比较效果研究即属于回顾性研究设计。

当缺乏头对头RCT 或前瞻观察性研究时，可使用回顾性数据库来探究多种治疗干预的效果之间是否有差异；即使已存在头对头的临床试验，在临床实践中也可能因用药人群、用药依从性的改变而使其结果不能代表真实世界的实际效果。此外，由于临床试验通常研究时间较短，产出指标一般为中间指标，若想获知较长观察时间下的最终疗效（如死亡率、残疾率和生命质量等），长期随访的医疗大数据研究可以提供优质的证据。

2 基于医疗大数据的比较效果研究设计要点

国际药物经济学会（ISPOR）于2009 及2012年分别在其官方杂志Value in Health 上发布了比较效果研究优良研究规范，用以指导CER 的研究设计和执行，为医疗卫生决策提供更加严谨科学的证据[1-4]。本文即在这些指南的基础上对比较效果研究设计的重点问题进行探讨。

2.1 研究问题和研究设计

明确的研究问题和清晰的研究计划是保障研究质量的第一步。为了定义一个具有科学性、创新性和可行性的研究问题，研究者可以从“预期得到什么样的结果”开始考虑，即预想出回答研究问题所需的关键图表，同时思考从现有数据中可以获得哪些信息以及利用现有数据是否可以回答所要研究的问题。

同时，研究问题和数据可及性对研究设计的选择也有着重要影响。已有学者综述过CER 中常见的重要研究设计，包括队列研究（cohort design）、病例对照研究（case-control design）、病例交叉研究（case- crossover design）和病例时间对照研究（case-time- control design）等[5-6]，不同的研究设计的使用范围各不相同。

在队列研究中，通常将患者分为接受不同治疗的多个队列，追踪一段时间后，可描述治疗干预与特定结果的关系。但在结局事件发生率较低的情况（如严重不良反应）下，队列研究最终追踪到的发生结局事件的患者数量可能非常少，无法进行充分的因果推断。此时，可考虑进行病例对照研究，即首先找出已发生和未发生结局事件的患者，比较两组患者在之前一段时间内是否接触过特定的治疗干预，进而推断治疗干预与结局事件的关系。

队列研究与病例对照研究顺利开展的前提条件是存在一个具有可比性的对照组。若不能找到合适的对照组，可以考虑采用病例交叉设计，仅纳入已发生结局事件且在该结局事件发生前的特定时间内接触过治疗干预的患者，进行自身对照（即患者本身既是病例组又是对照组），这类研究设计尤其适用于估计短暂的干预措施相关的急性不良事件的危险性。病例时间对照研究则是将病例对照和病例交叉研究糅合，在病例组自身对照的基础上，同时建立一个未发生特定结局事件的对照组，以消除时间积累对暴露和结局因果关系的干扰。

2.2 研究中的偏倚与混杂

由于现有的医疗大数据并非以科研为目的建立，产生的数据集并不能完全适配科研。在进行比较效果研究时，测量暴露（治疗干预）和结局事件过程中可能会出现暴露错误分类和结局事件错误分类，从而产生偏倚。许多因素可能导致暴露或结局事件的错误分类，包括识别“暴露”的时间窗的长短、患者是否失访和患者通过数据库覆盖范围外的其他途径获得治疗药物等。

混杂是另一个影响基于医疗大数据的比较效果研究结果的重要因素。当已知某些因素会影响结局但在研究中未测量或无法测量，或所对比的治疗干预的适用人群有差异而使得两组患者的实际疾病严重程度不同时，就会产生混杂。此外，还存在一种更加复杂的混杂因素，即时间依赖性混杂（图1）。它指的是同时充当混杂因素和中间步骤的变量。例如，在研究使用阿司匹林对心脏病死亡的影响时，心肌梗死事件便是一个时间依赖性混杂。因为发生心肌梗死是后续服用阿司匹林的原因，也是后续发生心脏死亡的风险因素；同时，阿司匹林使用也可预防心肌梗死的发生。因此，心肌梗死事件同时扮演了混杂（之前的心肌梗死导致患者使用阿司匹林）和中间步骤（随访心肌梗死事件的发生受阿司匹林使用的影响）的角色（这些关系详细描绘于下图1b。使用阿司匹林是治疗干预A，而心肌梗死事件是混杂L，心脏病死亡是结局事件Y）。

图1 时间独立性与时间依赖性混杂的简化因果关系

为降低和消除偏倚和混杂的影响，严格限制纳排标准是一种可选的方法，例如排除过发生过结局事件的患者、只纳入新用药患者、排除依从性低的患者等等。

2.3 统计分析技术的应用

如上所述，在使用医疗大数据进行比较效果研究时，为了增强因果关系推断的可靠性，选择适当的统计分析技术控制偏倚和混杂是十分必要的。常用方法主要包括分层分析、多元回归分析和倾向评分分析等[4]。

分层分析是将样本数据依据患者特征进行分组，分别观察每个亚组内的结果，可以对相关特征如何影响结局事件以及在回归模型中如何以最佳方式纳入这些协变量提供重要信息。特别是当对随访时间进行分层时，可预防竞争风险（即观察多个结局指标时，不同指标的发生之间存在竞争关系，例如发生先死亡的患者不会再发生心肌梗死）产生的偏倚或患者失访导致的研究偏倚。在对研究样本进行分层后，如果各个亚组之间具有显著的异质性，则表示治疗干预对不同特征的患者产生的效果不同，即存在测量效果修正作用（effect-measure modification）。

当分层分析发现组间异质性或需要同时校正多个混杂时，可使用多元回归分析来控制这些独立因素的影响，以确定治疗干预与结局事件之间的特定相关性，这也是目前最常用的统计方法。在构建一个多元回归模型之前，研究者应该进行系统全面的文献回顾，以确认所有可能影响治疗选择与治疗结果的潜在混杂因素。理论上与治疗结果或治疗选择有关的所有因素，不论在传统显著水平下的统计显著性为何，均应纳入模型中。

倾向评分分析是近年来发展迅速的一种技术，可用来处理选择偏倚及其他内生性问题。倾向评分是指，在控制所有协变量的情况下一个患者接受治疗的条件概率（即评分处于0～1 之间）[7]。它可用于干预组和对照组患者的配对、分层或回归，增强两组患者的可比性。使用倾向评分进行分析时，通过比较两组患者评分的分布可以识别出分数存在较少重叠的情况（即两组患者可比性较差甚至不可比）。而在回归分析中，这些差异将会被模型掩盖。但整体而言，回归或倾向评分方法均无明显的优劣差异，且原则上两种方法均可采用。

之外，最近许多处理混杂因素的新技术也有了进一步的发展，如边际结构模型（marginal structural models）和结构方程式模型（structural equation modeling）等，也可应用于基于医疗大数据的比较效果研究[4]。

3 我国基于医疗大数据的CER 研究现状与展望

3.1 研究现状

与欧美发达国家相比，我国在比较效果研究方面还未有深入而规范的探索，已发表研究较少，且研究设计较粗糙，具体呈现出如下几点局限。

1）真实世界的实际样本量较小。大多数研究的开展未使用真实世界的医疗大数据，而仅仅是基于一家医院中某一疾病患病人群的病历数据，外推性较差[8-10]。

2）研究设计中较少考虑控制混杂因素。在已发表文献中，大多数研究仅采用简单的描述性统计方法对干预组和对照组的结果指标进行分析，如t检验、秩和检验、χ2检验等，未对因果关系进行深入探究[10-12]。仅有非常少数的学者采用了线性回归、倾向评分匹配等方法来控制研究中的选择偏倚等问题[13]。

3）研究结局指标设计不合理。在以手术干预为研究对象的研究中，大多数探究的是术中出血等并发症以及短时间内的预后情况[9,11]，而没有以再次手术率、术后长期并发症、死亡率等作为终点研究指标；在对药物治疗效果的研究中，研究指标则基本是选取了所研究疾病对应的生理生化指标（中间指标）或治愈率、有效率，较少考虑长期终点事件指标、长期生命质量或生存率等相关指标[8,14]。

3.2 研究展望

根据以上分析可以看出，我国基于医疗大数据的优质的比较效果证据还较为匮乏，这严重制约了我国真实世界研究支持医疗卫生决策的应用。为了提高我国医疗大数据的使用价值，规范比较效果研究的研究设计、改善研究质量迫在眉睫。

首先，应当提高对医疗大数据在真实世界研究中的应用意识。回顾性数据库可提供海量患者信息，相较于RCT 而言具有成本低、研究时限短等优势，可以用来探究治疗干预在临床实践中的效果，进而为决策制定提供高质量的证据支持。国内学者们可综合利用医保数据库、区域医院联合病历信息系统、特定疾病登记系统等多种医疗大数据来源进行研究。但值得注意的是，医院的电子病历虽然记录了详细的临床指标但往往不能实现对患者的长期随访，而医保报销数据库虽然能实现长期随访且有较详细的费用信息记录但往往缺乏临床指标信息。因此，研究者还应尽量结合多个数据来源开展研究，采用更加完善的研究设计，从而提高研究质量。

其次，在正式开展研究之前，应当撰写一份完整的研究方案执行书（protocol），包括研究背景与理论基础、研究问题/目的、研究设计类型、研究人群、纳排标准、研究时间、主要疗效指标和次要疗效指标、统计分析方法等。建议研究者尽量保持研究的透明度，公开发表研究执行书，并且在研究过程中，严格遵照研究方案进行，若后续分析有所改动则应提供正当理由，并同时报告原有分析计划和修改分析计划后获得的结果。

最后，在研究设计时，需特别注意混杂和偏倚的识别和处理。包括在定义目标人群时，选择受混杂因素影响较小的群体，如疾病新发患者或新用药患者；在纳入样本时，要求其在研究时限内持续随访；在选择数据时，尽可能链接多个数据来源以获得目标人群完整的治疗、结局事件及其他影响因素的信息；在统计分析方面，要根据数据情况和研究类型，综合选择合适的统计方法，将无法排除的偏倚和混杂影响降到最低。

综上所述，我国应大力加强对医疗大数据的利用，鼓励研究者基于医疗大数据开展真实世界的研究，同时还要进一步规范研究步骤，提高研究结论的可靠性，使其足以支持临床实践或指导政策制定。

基于医疗大数据的比较效果研究设计 要点述评与应用