医疗大数据的研究与进展

2023-11-19 04:28肖庆颖于广军

上海医学 2023年7期

肖庆颖于广军

在过去的20年里，各个领域的大规模数据不断增加，“大数据”一词主要用来描述海量数据集。在全球生物医学数据量呈爆炸性增长的背景下，如今医疗数据量被预测将达40万亿GB。与传统数据集相比，大数据通常包含大量非结构化数据，需要进行更多实时分析，大数据分析作为一种先进的分析技术，涉及大规模且复杂的应用。2019年WHO《数字健康全球战略2020-2025》提出要促进全球合作并促进数字健康知识的转移；推进国家数字卫生战略的实施；在全球和国家层面加强数字医疗治理；倡导以数字医疗为基础、以人为本的医疗系统。

在当今时代背景下，人工智能（artificial intelligence，AI）是一种引发诸多领域产生颠覆性变革的前沿技术。近5年来，“AI+”应用于医疗研究已成为现代科技的热点，数据存储和处理技术的快速进步为AI模型和算法的开发创造了良好的环境，引领医学走在AI的时代前沿。

1 国内外研究现状

1.1 美国和欧洲现状在全球医疗大数据应用方面，随着以深度学习为代表的AI带来的技术和产品不断涌现重大突破，美国已开始进行大数据、AI技术与医疗健康领域深度结合。美国拥有完整的医疗健康大数据库，建成覆盖本土的12个区域电子病历数据中心、9个医疗知识中心、8个医学影像与生物信息数据中心。美国国立卫生研究院还着重发起Big Data to Knowledge计划，通过资助研究项目、培训科学家和建立数据共享平台等方式，促进生物医学大数据的应用[1］。在战略规划方面，2016年，美国将AI为医疗诊断和处方治疗提供决策支持系统列入《国家人工智能研究和发展战略计划》。2021年，美国《国家数字健康战略》提出建设一个能够及时提供信息，使针对公众健康的决策和行动更加明智的、数字化的健康生态系统。美国加州大学的研究团队在JAMA上首次报道AI从10万余幅眼底视网膜照片中诊断糖尿病视网膜病变，与54位有美国医师执照的眼科医师及高年资住院医师的诊断结果相比较，其灵敏度及特异度均高于人工判断[2］，该研究为医疗AI领域具有代表性的研究。2023年，热度很高的ChatGPT（Chat Generative Pre-trained Transformer）主要用于患者的实时医疗咨询、随访、健康教育等。

欧洲的医疗信息化和医院管理水平较高，AI在健康管理、医院管理、智能问诊等领域的应用较为成熟。英国Babylon Health公司通过AI为用户提供远程医疗问诊服务，全球用户达到430万人，每天可进行4 000个临床咨询，已完成120多万人次数字咨询。在英国，大数据和AI已成为大力发展的战略领域之一。在医学AI领域方面，德国政府将“大数据+AI”视为未来经济的重要增长点，2018年11月出台了《人工智能战略》，其口号为“AI Made in Germany”。德国柏林的学者研发了一款基于AI的医疗健康应用软件Ada Health，该软件可识别1万多种病症和疾病，已被应用于欧洲家庭医师领域，其诊断准确率超过90%。

1.2 中国现状中国的大数据与医疗结合的需求重点在辅助诊断、患者虚拟助手、医学影像分析等方面，医药开发相对落后。在中国，AI技术在影像识别和辅助诊断领域的应用较为广泛，在其他场景中的应用也快速发展，展现出多元发展态势。从本质上来看，中国对当下医疗体系的窘境有着深度认知，因此大数据和AI作为能帮助中国医疗体系革新，为临床医师对患者进行诊治带来便利的技术手段，受到了较高程度的重视和应用。2022年10月，党的二十大报告对推进健康中国和数字中国战略做出了重要部署：要求把保障人民健康放在优先发展的战略位置，完善人民健康促进政策，构建新一代信息技术、AI、生物技术等一批新的增长引擎。2023年2月，中共中央、国务院印发《数字中国建设整体布局规划》，其中强调要“在农业、工业、医疗等重点领域，加快数字技术创新应用”，并明确提到“发展数字健康”等内容，彰显了我国对利用大数据赋能社会发展的坚定决心。

本述评重点讨论医疗大数据中AI技术的研究和进展，以及医疗大数据如何实现下一代AI。

2 大数据在医学AI中的应用

2.1 机器学习和深度学习计算促进了临床研究中各关键领域的发展，基于AI的算法为研究人员提供了更多的用途方向。目前，机器学习算法已被广泛应用于设计图像的学科领域中，包括病理图像、超声成像、内窥镜成像等，提高了诊断准确率，并可对疾病的严重程度进行分类。此外，临床肿瘤学已成为机器学习最重要的领域，机器学习利用数据来学习数据集的模式和结构，丰富的成像和分子数据促进了机器学习的应用，并将这些数据源与早期癌症检测、癌症进展监测和确定最佳治疗方法相关联。Placido等[3］展示了AI在识别癌症高风险人群方面的潜力，研究人员利用丹麦600万例患者和美国300万例患者的临床数据开发机器学习模型；根据患者的病史，评估罹患胰腺癌的风险，最佳模型在36个月内预测癌症发生的AUC的ROC为0.88。这样类似的研究问题和方法同样适用于儿科领域。同时，将深度学习应用于多种生物标志物分析的研究结果表明，其诊断的灵敏度和特异度均有所提高。澳大利亚莫纳什大学癌症研究团队利用机器学习方法为224个儿童癌症细胞系建立了一个多组学癌症细胞系图谱，能够更准确地对儿童癌症类型进行分类，通过药理学和遗传学CRISPR-Cas9功能丧失筛选，确认了儿童癌症中132种基因依赖性和53种药物敏感性细胞系，助力探索儿童癌症特异性生物标志物[4］。以深度学习为代表的AI技术可基于大数据驱动的算法，学习并模拟人类行为，处理海量、高维数据。2021年，美国华盛顿国立儿童医院的研究团队利用2 800张儿童的面部照片开发出一种基于深度神经网络和面部统计模型的遗传病筛查技术，该模型能够在普通儿科人群中识别遗传畸形，解释与种族、年龄和性别相关的表型变异[5］。

深度学习方法带来了蛋白质结构预测的革命，随着AlphaFold的发展，准确的蛋白质结构预测在很大程度上已为更多的人所接受，除了单体蛋白质，AlphaFold-Multimer还展示了较强的蛋白质复合物建模能力[6］。在制药领域，3名高中生利用由20余种预测模型和生物学模型构成的AI靶点发现引擎PandaOmics，识别出3个全新的针对衰老和胶质母细胞瘤的潜在双效靶点[7］，相关研究成果发表在Aging上，显示了AI系统辅助新药研发的广阔前景。

2.2 大语言模型赋能医疗大数据的利用 AI在医疗诊断和临床决策中的作用越来越受到重视，高度灵活且可重复使用的AI模型的快速发展，有望为医学领域带来全新变革。在AI领域的前沿进展中，生成式预训练模型在自然语言处理和计算机视觉等领域取得了成功，随着算力的不断提升，语言模型已从最初基于概率预测的模型逐步走向大语言模型的时代。大语言模型指网络规模巨大的深度学习模型，具体表现为模型参数量规模较大（通常为千亿级别），大语言模型是在大量通用文本数据上进行训练，以学习语言中的模式与实体关系。研究[8］结果表明，大语言模型具有明显的新能力，能够补充现有的因果方法，通过捕捉与任务相关的人类领域知识，形成任何因果分析的重要组成部分。

2022年以来，以ChatGPT为代表的AI大语言模型开始崛起，大语言模型在解释和生成广泛领域的序列方面表现出非凡的能力。目前有研究者将GPT-4作为一种医疗AI聊天机器人，支持自然语言发问，简化了AI的应用流程，并极大地拓展了其在医学领域的应用范围，包括医学图像分析、药物相互作用检测、高危患者识别和医疗记录编辑等。Lee等[9］研究中，1例COPD患者与GPT-4进行了两轮深度对话，结果显示，GPT-4给出了如何确定患者病情发生恶化、病情恶化的主要特征及是否需要紧急治疗等信息，整体回答结果可与临床医师相媲美。在医学图像报告分析领域，利用Chat GPT开发的ChatCAD能够基于图像生成报告，并利用大语言模型广泛且可靠的医学知识来提供交互式的影像报告解释和建议[10］。除了在医疗文本和医疗对话领域，大语言模型在单细胞生物学领域也展现出非常良好的涌现思维。近日，加拿大彼得·蒙克心脏中心的研究人员，通过利用呈指数增长的单细胞测序数据，首次尝试对超过1 000万个细胞进行生成式预训练来构建单细胞基础模型scGPT[11］，这是第1个基于单细胞生物学的大语言模型。

2023年4月Nature上发表的文章提出通用医疗AI（general medical artificial intelligence，GMAI）的范式，GMAI模型可使用少量数据或没有指定标记的数据来执行不同的任务[12］。相比于当前的医学AI模型，GMAI提供了更灵活的交互方式，使不同受众群体更容易理解其输出，并在不同任务和环境中提供前所未有的灵活性。目前研究关注于在无机器学习或数据科学专家的情况下，使开发高性能的医疗AI模型成为可能。Wagner等[13］使用Google Cloud Auto ML开发了一个无代码深度学习分类器和定制模型，用于在英国伦敦的多种族人群中早产儿视网膜病变的分类，这两种模型的分类结果与高年资儿童眼科医师的分类结果相似，该研究突显了自动机器学习和无监督学习的潜力，可以在缺乏数据科学专业知识的资源匮乏地区开发针对其特定人群的优化模型。

2.3 数据安全和隐私保护由于医疗数据的复杂性和敏感性，医疗AI平台的开发和应用也面临一些挑战，如数据隐私保护、技术安全性等。2014年，在联合国统计委员会的领导下成立了联合国全球大数据工作组，该工作组旨在利用大数据技术在联合国全球平台基础上，建立面向全球的大数据共享和经济获益的分析组织。2016年，Scientific Data上发表了《科学数据管理和监督的FAIR指导原则》，FAIR原则强调机器的可操作性，即计算系统在没有或最少人工干预的情况下查找、访问、互操作和重用数据的能力。欧盟于2018年通过了通用数据保护条例（general data protection regulation，GDPR），规定在处理个人数据方面保护自然人及此类数据的自由流动，该法规旨在保护欧盟公民的个人数据和隐私权，并规定了个人数据的收集、使用、处理和存储的方式。GDPR具有适用范围广泛、处罚严格、强调对个人数据的保护和强制性通知义务等特点，被认为是“史上最严”的个人数据保护条例。

我国数据监管和应用促进的法律法规起步较晚，但发展速度很快。2021年以来颁布的《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《关键信息基础设施安全保护条例》《关于构建数据基础制度更好发挥数据要素作用的意见》《数据出境安全评估办法》，以及2022年国家卫生健康委员会等3部门联合发布《医疗卫生机构网络安全管理办法》，为医疗卫生机构的网络和数据安全管理提供指导，以充分发挥健康医疗大数据作为国家重要基础性战略资源的积极作用，为健康医疗大数据合规、开放提供依据。

医疗大数据的研究及应用成为各国医学健康领域发展的新引擎，也是引领科技变革的新动能。我国在医疗大数据的研究建设起步较晚，目前仍面临着数据孤岛尚未完全打破、数据质量和治理效能需要提升、医疗大数据的开放使用需要破局、AI需要与大数据深度融合等问题。在大语言模型时代到来的今天，ChatGPT影响了医疗行业的变革，加上机器学习、深度学习算法等AI技术的赋能，使医疗大数据的发展越来越迅速。医疗大数据和AI技术的蓬勃发展改变了既往医学模式，可在不同层面提高医疗水平和保障人类健康。