基于人工智能干预措施的临床试验方案指南：SPIRIT-AI扩展

2020-11-28 02:37译者熊云云李子孝丁玲玲谷鸿秋王春娟王春雪赵性泉王拥军

中国卒中杂志 2020年11期

译者：熊云云，李子孝，3，丁玲玲，谷鸿秋，王春娟，3，王春雪，赵性泉，3，王拥军，3

临床试验方案是研究人员必须撰写的文件，应详细介绍临床试验的基本原理、研究方法和执行计划。外部审稿人（供资机构、监管机构、研究伦理委员会、期刊编辑、同行评审、机构审查委员会以及更广泛的公众）将通过此关键文件来理解该研究的原理、评估方法学的严谨性和伦理考量。此外，试验方案也提供了一个共享的参考，以支持研究团队进行高质量的研究。

尽管如此重要，目前已发表的试验方案的质量和完整性仍然参差不齐。因此，在2013年发布了《干预试验方案报告标准》（Standard Protocol Items：Recommendations for Interventional Trials，SPIRIT）声明，旨在为临床试验方案的最低报告内容提供指导，目前被广泛认可并成为国际标准。SPIRIT 2013提供了适用于所有临床试验干预措施的最低指导，但同时也认识到针对某些干预措施需要进行条目上的扩展或细化。人工智能（artificial intelligence，AI）领域备受关注，它具有强大的驱动力，通过出版、实施和市场推广可加速新的AI干预措施。AI系统的相关研究已开展了一段时间。近期，由于在卫生领域的应用潜力，其在深度学习和神经网络方面的进展引起了极大的关注。这些应用的例子范围很广，包括用于筛查和分诊、诊断、预后、决策支持和治疗推荐的AI系统。然而，目前大多数公开证据只有计算机模拟和早期验证。AI研究报告的不充分，以及现有的报告指南并未完全涵盖AI系统特有的偏移潜在来源已经成为了一个公认的事实。旨在评估基于或包含有AI成分（本文中为“AI干预”）的新型干预措施的临床疗效的随机对照试验也同样存在设计和报告方面的担忧。这凸显了制订AI领域内“目的导向”报告指南的必要性。

SPIRIT-AI扩展[作为SPIRIT-AI和《人工智能试验报告统一标准》（Consolidated Standards of Reporting Trials-Artificial Intelligence，CONSORT-AI）倡议的一部分]是由SPIR I T 和提高健康研究的质量和透明度（Enhancing the Qualit y and Transp are nc y of Health Res earch，EQUATOR）网共同支持的国际倡议，用于扩展或详细阐述现有的SPIRIT 2013声明，以制订基于共识的针对AI的研究方案指南，是对旨在促进高质量AI试验报告的CONSORT-AI声明的补充。这个共识声明描述了用于识别和评估候选条目并取得共识的方法。此外，它还提供了包括新的条目及其相应的解释在内的完整的SPIRIT-AI条目清单。

1 方法学

SPIRIT-AI和CONSORT-AI扩展同时被开发用于临床试验方案和试验报告。SPIRITAI和CONSORT-AI倡议于2019年10月发布。这两个指南均根据EQUATOR网的方法学框架制定，并于2019年5月在EQUATOR报告指南库中注册为正在制订中的指南。SPIRIT-AI和CONSORT-AI指导小组由15名国际专家组成，以监督研究的进行和审查研究的方法。术语表中提供了关键术语的定义（表1）。

2 伦理批准

该研究获得了英国伯明翰大学伦理审查委员会的批准（ERN_19-1100）。在调查完成前和共识会议前，参与者的信息以电子方式提供给德尔菲参与专家。德尔菲参与专家提供了电子知情同意书，并获得共识会议参与者的书面同意。。

表1 术语定义

3 文献综述和候选条目生成

通过审查已发表的文献，并与指导小组和知名国际专家进行磋商，生成了SPIRIT-AI和CONSORT-AI候选条目的初始列表。文献搜索工作于2019年5月13日进行，使用关键词“artificial intelligence”“machine learning”和“deep learning”搜索美国国家医学图书馆临床试验登记（ClinicalTrials.gov）中列出的涉及AI干预措施的现有临床试验。在316项注册试验中，62项已完成，7项已发表试验结果。有两项研究与CONSORT声明有关，其中一项研究提供了一项未发表的试验方案。工作小组从这些研究中确定了针对AI的考虑因素，并将它们重新设计构建为候选条目。这些候选条目也从既往一项评估医学成像深度学习诊断准确性的系统综述中找到依据。在咨询了指导小组和其他国际专家（n=19）之后，研究生成了29项候选条目，其中26项与SPIRIT-AI和CONSORT-AI皆相关，3项仅与CONSORTAI相关。工作小组将这些条目规划到相应的SPIRIT和CONSORT条目，修改措辞，并根据需要提供说明文本，以将条目置于上下文。这些条目被列入随后的德尔菲调查。

4 德尔菲共识流程

2019年9月，169位国际专家被邀请参加在线德尔菲调查，对候选条目进行投票并提出其他条目。项目指导小组确定并联系专家，联系的专家可以举荐其他专家以便进行一轮“滚雪球式”专家招募。此外，还包括在公告发布后联系的个人。指导小组一致认为，本次咨询应广泛地代表临床试验、AI和机器学习（machine learning，ML）专业人士以及该技术的主要用户的意见。利益相关者包括医疗保健专业人员、方法学家、统计学家、计算机科学家、行业代表、期刊编辑、政策制定者、卫生信息学家、法律和道德专家、监管者、患者和资助者等。本研究进行了两次在线德尔菲调查。使用的软件DelphiManager（版本4.0）由有效性试验的核心结果测量（Core Outcome Measures in Effectiveness Trials，COMET）开发和维护。参与者获得了有关该研究的书面信息，并被要求提供他们在以下领域的专业水平：①AI/ML和②临床试验。每项候选条目都需要参与咨询的专家进行仔细考虑（SPIRIT-AI为26项，CONSORT-AI为29项）。参与者对每项条目进行9分制投票，评分标准如下：1～3分：不重要；4～6分：重要但不关键；7～9分：重要且关键。受访者分别对SPIRIT-AI和CONSORT-AI进行了评级。针对每项条目的投票，可以选择弃权，并且每项投票条目下都有编辑功能，方便参与者提出建议。在德尔菲调查的最后，参与者有机会提出新建议。第一轮德尔菲调查收到103份回应，第二轮收到91份回应（占第一轮参与者的88%）。德尔菲调查的结果为随后的国际共识会议提供了依据。德尔菲研究参与专家提出了12项新条目，并在共识会议上进行了讨论。对在德尔菲调查中收集的数据进行匿名处理，并将条目级别的结果提交共识会议进行讨论和投票。

为期两天的共识会议于2020年1月举行，由英国伯明翰大学主办，旨在就SPIRIT-AI和CONSORT-AI的内容达成共识。邀请了来自德尔菲调查参与者中的31个国际利益相关者讨论这些条目，并对其进行投票。选择的参与专家能恰当地代表各利益相关团体。依次讨论了38项条目，其中包括在初始文献综述和条目产生阶段生成的26项条目（这26项条目与SPIRIT-AI和CONSORT-AI相关；同时讨论了仅与CONSORT-AI相关的3项条目）以及参与专家在进行德尔菲调查期间提出的12项新条目。每项条目的德尔菲调研得分（中位数和四分位间距）以及德尔菲参与专家关于该条目的评论均被提交给共识小组。共识会议参与专家评论每项条目的重要性以及该条目是否应包括在AI扩展建议中。此外，共识会与会人员讨论每一项附带的解释性文字措辞以及每项相对于SPIRIT 2013和CONSORT 2010清单的位置。在公开讨论每项条目以及调整措辞之后进行电子表决，以选择包含或排除该条目。指导小组预先设定了80%的纳入门槛，可以代表多数参会专家的共识。每个利益相关者都使用转折点（Turning Point）投票设备（Turning Technologies，版本8.7.2.14）进行匿名投票。

5 条目清单预试验

在共识会结束后，参会者将对SPIRIT-AI和CONSORT-AI的更新条目的措辞给出最终的意见，并确保更新的内容忠实地反映共识会议讨论的结论。

工作小组根据决策树将每项条目分配为扩展或详细说明项，并生成了SPIRIT-AI和CONSORT-AI条目清单的倒数第二份草案。一项预试验对倒数第二轮草案的条目清单进行了测试，用于确保更新内容的措辞是清晰无歧义的。共有34位专家参与该试验，包括：①参与德尔菲研究，但是未参加共识会的专家，以及②未参加开发过程但在德尔菲研究开始后联系的外部专家。工作小组对文字进行了最终更改，目的仅为让读者阅读时更加清晰明确。

6 指南推荐

6.1 SPIRIT-AI清单条目和说明

SPIRIT-AI扩展应与现有SPIRIT 2013原有条目结合在一起使用，SPIRIT-AI扩展推荐AI干预措施相关的试验方案应符合15项新的条目（12项扩展和3项阐释说明）。这些条目对AI干预相关的临床试验方案极为重要，因此除了SPIRIT 2013清单核心条目外，还应常规报告这些新的条目。表2列出了SPIRIT-AI条目。

SPIRIT-AI扩展中纳入的15项新条目都在共识会上通过了80%赞成票的纳入门槛。SPIRIT-AI 6a（i）、SPIRIT-AI 11a（v）和SPIRIT-AI 22是由两个候选条目经过讨论后合并而成。SPIRIT-AI 11a（iii）最初并不符合列入标准（73%的投票赞成），但经过广泛讨论和修改后，共识小组一致支持重新表决，并最终通过了纳入门槛（97%投票赞成）。

6.2 管理信息

（1）SPIRIT-AI 1（i）说明：表明AI/机器学习相关的干预措施并指明模型类型。

解释：鼓励在方案标题和（或）摘要中指出干预措施涉及AI，以便可以立即将其确定为AI/ML干预类别，并有助于在文献数据库、登记数据库和其他在线资源中对试验方案进行索引和搜索。标题应该能被广大读者理解，因此鼓励使用接受度更为广泛的术语，如“人工智能”或“机器学习”。

应该在摘要中使用更精确的术语，而不是标题，除非它们被广泛地认为是作为AI/ML的一种形式。与模型类型和架构相关的具体术语应在摘要中详细说明。

（2）SPIRIT-AI 1（ii）说明：陈述AI干预的预期用途。

解释：AI干预的预期用途应在方案标题和（或）摘要中明确。这应该描述AI干预的目的和疾病背景。一些AI干预措施可能有多项预期用途，或者预期用途可能随着时间的推移而演变。因此，记录这一点可以让读者了解在试验时该算法的预期用途。

6.3 引言

（1）SPIRIT-AI 6a（i）扩展：解释人工智能干预在临床路径中的预期用途，包括其目的和预期用户（如医疗保健专业人员、患者、公众）。

解释：为了阐明AI干预将如何适应临床路径，应在方案背景中详细描述其作用。AI干预可以设计为与不同的用户交互，包括医疗专业人员、患者和公众，他们的角色可以是广泛的（如相同的AI干预理论上可以取代、增强或判定临床决策的部分内容）。阐明AI干预的预期用途及其预期使用者有助于读者理解在试验中评估AI干预的目的。

表2 SPIRIT-AI条目清单

（2）SPIRIT-AI 6a（ii）扩展：描述有关AI干预的任何现有证据。

解释：作者应在研究方案中描述任何与AI干预的有效性相关的已发表证据（支持性参考文献）或未发表的证据，或AI干预相关方面缺乏的说明。应考虑证据是否用于与计划的试验相似的用途、设置和目标人群。这可能包括AI模型的前期开发、内部和外部验证以及试验前所做的任何修改。

6.4 受试者、干预措施和结局

（1）SPIRIT-AI 9扩展：描述将AI干预纳入试验环境所需的现场和非现场要求。

解释：AI算法的泛化存在局限性，其中之一是当它们在开发环境之外使用时。AI系统依赖于其运行环境，研究方案应提供硬件和软件要求的详细信息，以便在每个研究场所对AI干预进行技术整合。例如，应该说明AI干预是否需要与供应商的设备绑定，是否每个研究场所需要有专有计算硬件，或者研究场所是否必须支持云集成，特别是这些设备是否需要特定的供应商。如果在实施过程中需要在每个研究场所对算法进行任何更改（如根据本地数据对算法进行微调），则还应清楚地描述此过程。

（2）SPIRIT-AI 10（i）说明：在受试者层面陈述纳入和排除标准。

解释：纳入和排除标准应根据非AI干预试验方案中的惯例在受试者层面进行定义。这不同于在数据输入层面制定的纳入和排除标准，后者在条目10（ii）中作了说明。

（3）SPIRIT-AI 10（ii）扩展：在输入数据层面说明纳入和排除标准。

解释：“输入数据”是指AI干预为实现其预期用途目标所需的数据（如对于乳腺癌诊断系统，输入数据可以是未经处理或特定厂商的提供的乳腺癌钼靶X线扫描后处理数据，据此进行诊断；对于预警系统，输入数据可以是电子病历中的生理指标或实验室结果）。试验方案应预先规定是否对输入数据（如图像分辨率、质量指标或数据格式）有最低要求，以确定随机化前的合格性。它应具体说明评估的时间、方式和人员。例如，如果受试者符合第10（i）项所述的CT扫描平躺的标准，但扫描质量（出于任何特定原因）降低到不再适合AI系统使用，则应将其视为输入数据级别的排除标准。请注意，如果输入数据是在随机分组后获得的（由SPIRIT-20c解决），任何排除都被认为是来自分析层面，而不是来自入组标准（图1）

（4）SPIRIT-AI 11a（i）扩展：说明将使用哪个版本的AI算法。

解释：与其他形式的医疗设备软件类似，AI系统在其生命周期内可能经历多次修改和更新。研究方案应说明将在临床试验中使用哪种版本的AI系统，以及该版本是否与先前用于证明研究理由的研究中使用的版本相同。在可行的情况下，研究方案应说明相关版本之间发生了什么变化以及变更的理由。在适用的情况下，研究方案应包括市场监管机构备案，例如唯一设备标识符，它要求设备更新版本的新标识符。

（5）SPIRIT-AI 11a（ii）扩展：详细说明AI干预中获取和选择输入数据的程序。

解释：任何AI系统的测量性能可能严重依赖于输入数据的性质和质量。应提供如何处理输入数据的程序，包括AI系统分析前的数据采集、选择和预处理。这个过程的完整性和透明性是可行性评估和未来将该干预措施推广的重要保障。它还将有助于确定输入数据处理流程是否将在不同的试验场所进行标准化处理。

（6）SPIRIT-AI 11a（iii）扩展：详细说明评估和处理质量差或不可用输入数据的程序。

解释：与SPIRIT-AI 10（ii）类似，“输入数据”是指AI实现预期用途所需的数据。如第10（ii）项所述，AI系统的性能可能受输入数据质量差或缺失（如心电图上的异常运动伪影）影响。研究方案应规定是否以及如何识别和处理质量差或不可用的输入数据。方案还应规定输入数据所需的最低标准，以及未达到最低标准时的处理流程（包括对受试者管理路径的影响或其他任何变化）

质量差或不可用的数据也同样会影响非AI的干预效果。例如，较差的扫描质量可能会影响放射学家诊断的结果。因此，输入数据在AI干预组和对照组应保持一致。如果该最低质量标准与随机化前评估的合格输入数据的纳入标准不同，则应予以说明。

（7）SPIRIT-AI 11a（iv）扩展：详细说明在输入数据的处理中是否存在人-AI交互，以及用户需要什么专业知识水平。

解释：当处理输入数据时，应提供人-AI界面的描述和良好人-AI交互的要求。例如临床医师引导从组织切片中选择感兴趣的区域，并可由AI诊断系统解释，或者由内科医师选择的结肠镜检查视频片段作为用于检测息肉的算法的输入数据。对即将使用AI干预措施的用户培训的描述以及用户如何处理输入数据的说明应该是清晰的，并且在试验流程中是可重复的。人-AI交互不清楚可能导致用户无法做到标准化操作，并可能带来伦理影响，尤其是在发生危害的情况下。例如，一旦发生错误，将很难界定是由于人为偏离操作流程，还是由AI系统造成的错误。

（8）SPIRIT-AI 11a（v）扩展：详细说明AI干预的输出。

解释：AI干预的输出应在研究方案中明确规定。例如，AI系统可以输出诊断分类或概率、建议的操作、对事件发出警报（如输注药物的滴定）或其他输出。AI干预输出的性质直接说明了它的可用性以及它如何导致下游行动和结果。

（9）SPIRIT-AI 11a（vi）扩展：解释AI干预的输出将如何有助于临床决策或其他临床实践方面的程序。

解释：由于受试者的健康结果也可能很依赖用户如何与AI干预进行交互，试验方案应解释AI系统的输出结果如何用于临床决策或临床实践。应该详细描述能够影响受试者结局的下一步干预措施。与SPIRIT-AI 11a（iv）类似，应详细描述人-AI交互对输出结果的各种影响，包括理解输出结果所需的专业知识水平以及为此目的提供的任何培训和（或）说明。例如，以概率可能性作为输出的皮肤癌检测系统应附有解释，说明输出结果如何解释和用户如何行动，并指定两种预期途径（如果诊断为阳性，则行皮肤病变切除术）和进入这些路径的阈值（如果诊断为阳性且概率大于80%，则进行皮肤病变切除）。参照性的干预措施产生的信息应类似地描述，并解释如何使用这些信息进行患者管理的临床决策，以及它们之间在哪儿相关。

6.5 监控方法

（1）SPIRIT-AI 22扩展：阐述识别和分析性能错误的任何计划。如果没有计划，请说明理由。

解释：性能错误的报告和失败案例的分析对AI干预尤其重要。AI系统可能会犯一些难以预见的错误，忽视这些问题而进行大规模部署，可能会造成严重后果。因此，识别错误问题并确定风险控制策略对确定何时进行安全实施干预措施以及针对哪些人群使用是极为关键的。研究方案中应该详细说明是否有分析性能错误的规划。如果没有这方面的规划，应在研究方案中说明理由。

6.6 伦理与宣传

（1）SPIRIT-AI 29扩展：说明是否能以及如何访问AI干预和（或）其代码，包括访问或重复使用的任何限制。

解释：研究方案应明确是否能以及如何访问或重复使用AI干预和（或）其代码。应包括相关许可证和访问限制的详细信息。

7 讨论

SPIRIT-AI扩展与SPIRIT 2013及其他相关的SPIRIT扩展一起，为临床试验方案中应报告的AI特定信息提供了基于国际共识的指导。它包括了15项条目：3项是在AI试验背景下对现有SPIRIT 2013指南的阐述，以及12项新的扩展。该指南的目的不是规定AI试验的研究方法，相反，它旨在提高在报告临床试验设计和方法时的透明度，以更易于理解、解释和同行评议。

许多扩展条目涉及干预措施[条目11（i）～11（vi）]、设置（条目9）和预期效果[条目6a（i）]。针对AI系统的相关方面提出了具体建议，包括算法版本、输入输出数据、整个试验设置、用户的专业知识以及根据AI系统的建议可采取的执行研究方案等。专家一致认为，这些细节对于独立评估研究方案至关重要。期刊编辑指出，尽管这些条目很重要，但目前它们在提交用于发表的试验方案和报告中经常被遗漏，这一现象更加突出了将它们加入特定扩展条目的必要性。

德尔菲评论和共识小组讨论的一个共同的焦点是AI系统的安全性。与其他卫生干预措施不同，AI系统可能产生无法预测的错误，而这些错误通过人类判断不易被检测或解释。例如，对人眼来说，不可见的或随机出现的医学影像变化可能会完全改变诊断结果的可能性。令人担忧的是，鉴于AI系统在理论上可以轻易大规模部署，任何意想不到的有害后果都可能是极其严重的。为此添加了两个扩展项。SPIRIT-AI第6a（ii）项要求说明验证AI干预证据的等级水平。SPIRIT-AI第22项要求对所有分析性能错误的计划进行说明，以强调预测算法所产生的系统性错误及其后果的重要性。

德尔菲调查和共识会议提出了一个未包括在最终指南中的主题，即“持续进化”AI系统（也被称为“持续适应”或“持续学习”AI系统）。这些AI系统能够不断地对新数据进行训练，使其性能可能会随着时间的推移而发生变化。专家组注意到，虽然这很有趣，但这一领域尚处在相对早期的发展阶段，在医疗应用中缺乏实例，因此目前不适宜在SPIRIT-AI指南中强调。这一主题将在SPIRIT-AI的未来迭代中被观察和重新讨论。值得注意的是，软件的逐步更新，无论是连续的还是迭代的，有目的性还是无目的性，都可能对部署后的安全性能产生严重的后果。因此，至关重要的是，应按软件版本记录和确定这些变更，并制订强有力的部署后监督计划。

本研究是在当前健康领域中的AI背景下进行的，因此，需要注意几个局限性。首先，在SPIRIT-AI提出时，医疗AI领域只有7项已发表的试验，尚无已发表的试验方案。因此，在SPIRIT-AI的开发过程中所做的讨论和决定并不是都有现有实例的支持。这源于我们声明的目标，即尽早解决AI领域试验方案设计较差的问题，认识该领域强大的驱动因素，以及AI研究设计和报告的具体挑战。随着科学和AI研究的发展，我们欢迎研究人员合作，共同发展这些报告标准，以确保其持续的相关性。其次，AI随机对照试验的检索使用了“人工智能”“机器学习”和“深度学习”等术语，但没有使用“临床决策支持系统”和“专家系统”等术语，这些术语在20世纪90年代更常用于基于AI系统的技术，其风险与最近的案例类似。这类系统如果今天发表，很可能会被编入“人工智能”或“机器学习”的索引。然而，临床决策支持系统在这个共识过程中并没有得到积极的讨论。第三，最初的候选条目列表是由范围相对较小的专家组提出，该专家组由指导小组成员和其他的国际专家组成。但是，由规模更大的德尔菲专家小组提出的新项目在共识小组进行了讨论，共识会议期间或会后评估期间没有新项目提出。

与SPIRIT声明一样，SPIRIT-AI扩展旨在作为最低限度的AI试验报告指南，对于试验方案，还有AI相关的其他注意事项可能值得考虑。此扩展特别针对已经计划或正在进行临床试验的研究者，不过，它也可以在AI系统的早期验证阶段为AI干预的开发者提供有用的指导。研究人员若想报告研究进展以及验证AI模型的诊断和预测性能应参考“基于机器学习的个体化预后或诊断的多变量预测模型透明报告”（Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis-Machine Learning，TRIPODML）和“基于人工智能诊断准确性研究的报告标准”（Standards for Reporting Diagnostic Accuracy Studies-Artificial Intelligence，STARD-AI），这两者目前均在开发中。其他潜在相关的指导原则（对研究设计不确定）已在EQUATOR网站注册。SPIRIT-AI扩展的推出希望可以鼓励对AI干预的临床试验进行谨慎的早期规划，与CONSORT-AI结合起来，将有助于提高AI干预试验的质量。

人们普遍认为AI是一个快速发展的领域，随着技术和新的应用方向的发展，将有必要对SPIRIT-AI进行更新。目前，AI/ML的多数应用涉及疾病检测、诊断和分诊，这可能会影响SPIRIT-AI条目的性质和优先顺序。随着“AI成为治疗手段”的广泛应用，根据这些研究重新评估SPIRIT-AI将是非常重要的。此外，计算机技术的进步以及将其整合到临床工作流程中的能力将为医疗创新带来新的机遇，从而使患者受益。然而，研究设计和报告也可能伴随新的挑战，以确保透明度，最大限度地减少潜在偏倚，并确保此类研究的结果值得信赖，以及它们可能在多大的程度上可推广。SPIRITAI和CONSORT-AI 指导小组将会持续关注更新的需要。

数据获取：可向通信作者提出数据请求，由SPIRIT-AI和CONSORT-AI指导小组考虑是否提供。