人工智能技术在新型冠状病毒肺炎诊疗过程中的应用

2021-04-03 23:59张晨光

中国医疗器械杂志 2021年4期

张晨光

国家药品监督管理局医疗器械技术审评中心，北京市，100081

0 引言

自2019年12月以来，新型冠状病毒肺炎（COVID-19）疫情席卷全球，根据世界卫生组织（WHO）的统计数据，已经造成超过2 500万人确诊，死亡人数超过80万人[1]，疫情的快速传播为世界公共卫生系统带来巨大挑战。短时间内大量病人涌入急诊和发热门诊等待诊断和治疗，医疗机构负荷骤然提升。作为COVID-19诊断的重要方法[2]，CT影像和实时荧光PT-PCR核酸检测能力在疫情早期严重不足。此外，由于缺乏对患者病情走势的判断，对COVID-19急性并发症也难以提前准备和干预。随着人工智能（artificial intelligence，AI）技术不断发展成熟，其在图像识别、数据分析、决策辅助等方面的先进算法越来越丰富。将AI技术与现有条件下的疾病诊疗手段进行深度融合，充分发挥其独特优势，将可以帮助我们更好地应对COVID-19等突发性重大传染病带来的挑战。

1 AI技术与COVID-19诊疗概述

1.1 AI技术应对COVID-19的特点

AI技术是在计算机科学、控制论、信息论、心理学等学科的基础上发展起来的融合性技术，基于卷积神经网络（convolutional neural network，CNN）、机器学习（machine learning，ML）和深度学习（deep learning，DL）等方法，通过对海量数据的训练和学习，使模型具有良好的决策判断能力、适应能力和自我完善能力[3]。AI模型的建立需要基于一定数量的既有样品数据，而一旦有效的模型得以确立，将帮助人们做出快速、稳定的决策。随着训练数据量不断增加，模型的准确性和鲁棒性也将不断增强。

COVID-19是一种突发新型急性传染病，人群普遍易感，且其症状与普通肺炎及其他呼吸系统疾病具有很多相似性，这些特点进一步加大了诊疗的困难。医生一方面需要逐步认识和学习这种新型病症的诊疗方法，另一方面要面对大量等待诊断和治疗的患者，疫情在发病高峰期造成了医疗资源的严重透支。AI技术可以充分利用自身特性与现有医疗手段结合，在病情分析、影像阅片、患者分类、病情预判等环节，辅助医生做出快速准确的判断，在缓解医疗资源紧张、提升诊断质量、减少人为失误、增强欠发达地区诊疗能力等方面发挥重要作用。本次COVID-19疫情激发各国研究人员进行多项研究，目的是让现有诊疗方法在AI技术的帮助下发挥出更大作用。

1.2 AI技术应对COVID-19诊疗的技术路径

随着AI技术的演进和发展，越来越多的算法和成熟模型可被用来模拟医生的决策过程，以海量数据和强大算力为支撑，实现超越单个诊疗专家或团队的决策效果，通过云计算和虚拟服务器，还能以较低的成本，快速复制和推广到多个地区，帮助我们更好应对COVID-19。根据不同临床需要和诊疗特点，需采取不同的技术方案。目前比较成熟的是医学影像AI：一是利用卷积神经网络和深度学习技术分析医学影像，进行病灶自动定位、圈划以及疾病的诊断、分类和分级。二是机器决策：通过决策树、随机森林、贝叶斯分类等方法辅助医生对患者类型、病情严重程度进行分类和预判。三是特征筛选技术：采用机器学习中的特征工程（feature engineering）方法，通过特征提取、特征选择和特征构造，按照重要程度，筛选出COVID-19不同合并症的特征以及影响诊疗效果的主要因素。

2 AI技术在COVID-19诊疗过程中的应用

2.1 基于胸部CT的AI诊断

胸部高分辨率CT（high resolution CT，HRCT）为当前筛查COVID-19的首选影像学方法[4～5]，患者早期多发小斑片影，晚期多发双肺磨玻璃影和浸润影[2]。利用AI技术建立模型训练学习这些影像特征并辅助医生进行阅片，将大幅提高阅片效率，缓解医生阅片经验不足和能力水平差异带来的阅片质量问题。

新冠肺炎与普通肺炎的CT影像学表现具有很强的相似性，诊断模型需要同时学习不同肺炎的影像特征以提高诊断准确性。WANG等[6]通过COVID-19确诊患者和先前被诊断为典型性肺炎患者的CT影像数据训练模型，使用CNN技术学习这些影像的特征，代表其算法性能的曲线下面积（area under curve，AUC）达到了0.93，其单个病例的平均诊断时间为10 s，特异性和灵敏性也有较好表现。针对这类诊断模型的研究证明，AI技术在大幅提高影像学诊断效率的同时，也能够在一定条件下保障诊断的准确性。另一方面，图像本身的质量对于诊断结果具有较强的影响，在模型训练时，应明确定义纳入训练数据的图像质量标准。

AI技术在COVID-19定性诊断的基础上，在判断病情严重程度方面也能够有所作为。GOZES等[7]使用基于CNN技术且擅长可视化分析的Grad-Cam模型[8]用于病灶的定位分析，将不同分辨率的CT平扫图像融合为3D图像后计算被COVID-19侵入的肺部体积，提出冠状病毒评分（Corona Score）用于评估病毒在肺部的传播程度。疾病的定量分析需要预测模型输出连续值，该研究表明弱监督深度学习方法在病情分析上也能取得较好的应用效果。此外，相较由支气管镜或有创方式提取肺部组织液分析病情进展的方式，基于CT影像的AI定量分析方法展示出更加广阔的临床应用前景。

2.2 基于常规临床指征的AI诊断

疫情传播初期，由于COVID-19症状与流行性感冒等其他呼吸系统疾病症状类似，需要排查的疑似病例数量激增，而医疗机构特别是欠发达地区和基层的医疗机构，其CT造影和核酸检测能力短期无法满足大量等待排查的病患，供需矛盾加剧了有限医疗资源的透支程度。通过大数据分析和人工智能算法，研究病例的常规临床身体指征及病情变化，并用于辅助诊断新冠患者，对于新型传染病发病早期的患者分类分级，以及提高医疗资源利用效率具有一定意义。

门诊可取得的数据种类繁杂，人口学、血常规、临床体征、住院病程的各项数据都可能成为疾病诊断的影响因素，利用这些数据进行病情早期诊断，难点在于将影响模型决策的主要因素按照关联性挑选出来。FENG等[9]观察了疫情初期医院发热门诊收治的具有流行病学意义的COVID-19接触史病例，将体温、心率、血常规、肌肉疼痛、入院时间等门诊记录列为备选特征，使用逻辑回归（logistic regression）方法对特征的重要性进行筛选排序，再采用机器学习算法Lasso递归建立无CT检查下的疑似病例早期诊断辅助模型。这类研究显示，筛选特征的过程至关重要，不同特征组合可能适用于不同的训练算法和模型方案，对最终模型的选择需要通过数据测试集和验证集进行评估。

在缺乏PT-PCR核酸检测资源的条件下，利用常规急诊检查指标进行COVID-19诊断预测，给出高危患者的转诊提示，这对于基层医院的诊疗具有一定意义。BATISTA等[10]选取除PT-PCR核酸检测以外的年龄、性别、血红细胞数量、红细胞平均血红细胞浓度、C反应蛋白等特征，采用随机树（random tree）和支持向量机（support vector machine）算法训练，获得了性能较为理想的模型。即使是用同样的特征集和数据集，当采用不同学习算法，也会导致性能上的较大差异，模型建立过程中应根据算力条件和临床终点指标进行算法选择。

目前，多数研究中选择的算法都属于有监督学习，即每个训练样本的输入，都对应着确定的输出，即训练后的模型对新的输入进行处理，将得出一个确定的预测值。对于COVID-19的预测模型的输出基本是离散值，即主要是分类问题。AI算法的性能会受分类数量、标记情况、样本数量等方面的影响，这些特点应在模型建立与算法选择时给予关注。

2.3 对患者并发症的AI预测

回顾性分析COVID-19患者入院时的临床特征，显示重症患者易出现急性呼吸综合征（ARDS）、心肌损伤、凝血障碍、肾损伤和休克等并发症[11]，通过分析致病因素、患者身体指征、病情发展时间等数据，利用深度学习等AI技术，提前获取病情发展趋势并预测可能出现的并发症，对于病人危重程度预判、医疗资源调配、诊疗方案早期介入，降低COVID-19患病死亡率等方面具有重要意义。

ARDS的症状较为复杂，为在提升AI算法准确性的同时节约运算资源，预测模型的设计需要根据特征贡献值控制特征值规模，可采用特征工程方法对数据特征进行预处理，选取临床适宜的特征集。JIANG等[12]利用COVID-19咽拭子核酸检测阳性确诊病例数据，设计了一个预测COVID-19患者患ARDS的模型。该研究在数据预处理过程中采用过滤法（filter）确定出含有谷丙转氨酶、淋巴细胞数量、肌酐等生化指标及性别、年龄等11项的特征集并用于模型训练，获得了较好的性能。同时WANG等[13]的一项研究显示，肺部CT、发烧症状、淋巴细胞减少症等都无法预测ARDS的发生。

COVID-19另外一个危险的并发症是急性肾衰竭（acute kidney injury，AKI），其中部分患者预期将需要接受透析治疗。AI算法的作用在于提前推断出哪些患者将出现AKI，甚至将进行透析治疗。CHAN等[14]利用Python的机器学习模型解释工具SHAP（SHapley Additive exPlanation）分析模型各特征值的重要性，进而通过改进的决策树机器学习算法得到预测模型。他们观察到：肌酐、年龄、血钾以及心率对模型结果的影响程度要大于白细胞数量和淋巴细胞数量等其他特征。这类研究过程除了让我们得到有效的预测模型，对于临床并发症的影响因素也有更深的理解。

3 问题与讨论

尽管过去AI技术在医疗领域应用的尝试已经全面展开，但在COVID-19诊疗方面的研究和应用依然处于初始阶段，一些问题仍然有待探讨和解决。比如人工智能诊疗的责任归属尚不清晰，AI自动出具的诊断报告是否需要医生最终确认仍在讨论之中；假阴性和假阳性诊断的风险依然存在，经验丰富的医生可能依然倾向于人工诊断，而 AI对缺乏医疗资源的基层地区或者经验不足的医生帮助更为显著；模型训练依赖海量数据，当前研究的样本数量受条件的限制还比较有限，各项研究的数据集依然呈现出小而散的特点；人种差异、病毒变异等因素是否会对模型的构建造成影响还有待研究；数据的收集、脱敏、标记、训练、验证等过程缺乏相应的质量保证体系，数据质量难以评估，一套标准全面并受到广泛认可的数据集有待建立；AI模型在当前临床数据的基础上还应结合遗传学、流行病学等更宽角度的信息以进一步提升模型的准确性等。

4 结语

在应对COVID-19给诊疗工作带来的巨大挑战过程中，世界多个国家研究人员纷纷利用人工智能技术开展了多角度的研究并取得了丰硕的成果，为解决突发重大疫情下的医疗资源紧张、提升医疗质量和降低患病死亡率等问题带来了新的机遇。随着病例样本数据量的扩大和更多研究力量的参与，AI技术将在人们解决COVID-19诊疗过程中发挥更大作用。