基于EasyDL开发糖尿病眼底病变人工智能分级诊断模型及其验证评价

2022-05-23 01:12曹绮雯王春晖万杰君王金龙杨群峰

新医学 2022年5期

曹绮雯王春晖万杰君王金龙杨群峰

【摘要】目的创新性利用人工智能（AI）开放平台EasyDL独立开发糖尿病视网膜病变（DR）的AI辅助诊断模型，并对其诊断准确指标进行评价。方法采用Kaggle公开的糖尿病眼底疾病数据集的35 126张眼底照片作为训练集，上传至EasyDL开放平台建立AI辅助诊断模型。收集在眼科进行临床DR筛查的150例糖尿病患者共300张双眼的彩色眼底照片作为测试集，以3位副高及以上职称眼科医师的诊断为金标准，分别评价AI诊断模型、初级医师、中级医师及联合诊断对DR分级的诊断准确性。结果非DR和轻度非增生型DR（NPDR）患者共170例，中度、重度NPDR和增生型DR（PDR）患者共130例。AI诊断模型灵敏度高但特异度低，各项诊断指标和中级医师诊断接近，比初级医师诊断优秀。当AI诊断模型和临床医师诊断相结合时，诊断的准确率和灵敏度均有所提高。在与金标准的一致性评价中，AI诊断模型的kappa系数为1.00，而中级医师诊断的kappa系数为0.88（P均< 0.01）。结论基于开放平台EasyDL建立的AI诊断模型操作简单，能为DR的初筛提供帮助，同时也为不具备深度学习算法知识的临床医师提供有效的科研工具。

【关键词】糖尿病视网膜病变;人工智能诊断模型;诊断准确性研究

【Abstract】 Objective To innovatively utilize the open artificial intelligence （AI） platform EasyDL to independently develop an AI auxiliary diagnosis model for diabetic retinopathy （DR）， and evaluate its diagnostic accuracy indicators. Methods 35 126 fundus photos of the diabetes fundus disease data set published by Kaggle were used as the training set， and uploaded to the EasyDL open platform to establish an AI auxiliary diagnosis model. A total of 300 color fundus photographs of bilateral eyes of 150 patients with diabetes mellitus who received clinical DR screening were collected as the test set. The diagnosis of 3 ophthalmologists with deputy director title or above was considered as the gold standard. The diagnostic accuracy for the grading of DR by the AI diagnosis model， junior physicians， intermediate physicians and these combined was evaluated， respectively. Results There were 170 patients with non-DR （NDR） and mild non-proliferative DR （NPDR）， and 130 patients with moderate and severe NPDR and proliferative DR （PDR）. AI diagnostic model had high sensitivity but low specificity. AI diagnostic indexes were close to those of intermediate doctors and better than primary doctors. When AI diagnostic model was combined with physician diagnosis， the accuracy and sensitivity of diagnosis were improved. In the consistency evaluation with the gold standard， the kappa coefficient of the AI diagnosis model was 1.00， and 0.88 for the intermediate physicians （both P < 0.01）. Conclusions The AI diagnosis model based on the open platform EasyDL is simple and easy to operate， which can contribute to the preliminary screening of DR. It also provides effective scientific research tools for physicians who lack of the knowledge of deep learning algorithms.

【Key words】 Diabetic retinopathy; Artificial intelligent diagnosis model; Diagnostic accuracy study

糖尿病可引起多種长期并发症，其中糖尿病视网膜病变（DR）是糖尿病性微血管病变中最常见且严重的并发症之一。DR已经是我国一个严重的公共卫生问题。据医疗公开数据显示，目前糖尿病患者数量仍在逐年增长，我国糖尿病患者数量已被公认为全球最多，约1.39亿人。DR患病率在我国农村高于城市、北方高于南方和东部，DR病程< 10年者的发病率约为7%，病程10～14 年者的发病率约为26%，病程 ≥15年者发病率约为63%，其中病程> 30年者发病率高达95%[1]。一方面，通过眼底照相筛查DR是一种非常重要的预防手段，但需要技术成熟的眼科医师阅片，这在资源不足的基层医院难以实现[2]。另一方面，DR病变种类多样、表现复杂，眼科医师对眼底图像判断存在主观因素、效率低等问题。为解决上述问题，国内外开展了大量利用人工智能（AI）系统对眼底照片阅片应用的研究。我国眼科领域在AI浪潮袭来之时，采取积极的态度面对，已有大量的研究成果和产品推出[3]。然而这些高科技成果大部分仅在大型三甲教学医院应用，基层医院无法承担其高昂的成本。基层医院要建立自己的眼底AI诊断系统面临许多难题：①临床医师缺乏复杂的深度学习算法技术;②单中心医院难以积累大量的训练数据并进行建模;③算法落地到硬件应用需要较高的成本[4]。目前国内许多的大型互联网企业，如百度、腾讯、华为等均开发了各自的AI开放平台，提供简易的AI建模方法，为缺乏深度学习算法技术的传统行业助力[5]。为此，本研究采用kaggle公开的糖尿病眼底疾病数据集，利用EasyDL开放平台建立眼底阅片的AI诊断模型，并对其检测效果进行评价。

对象与方法

一、DR的分级

依据DR国际分级标准将患眼图片分为非DR（NDR）、轻度非增生型DR（NPDR）、中度NPDR、重度NPDR和增生型DR （PDR） [6]。其中NDR （DR0级）指眼底无异常，轻度NPDR（DR1级）指仅有微血管瘤，中度NPDR（DR2级）指不仅有微血管瘤但病变轻于重度DR，重度NPDR（DR3级）指具有下列任何一项：①4个象限中任何一个象限有20个以上的视网膜内出血点;②2个以上象限有明确的静脉串珠样改变;③1个以上象限有明确的视网膜内微血管异常;④无PDR体征;⑤具有下列1项或多项，如新生血管形成、玻璃体出血、视网膜前出血。

二、训练集图片获取与AI诊断模型构建方法

采用kaggle公开的糖尿病眼底疾病数据集（https：//www.kaggle.com/c/diabetic-retinopathy-detection/data），数据集共有35 126张眼底照片，每张照片已基于糖尿病眼病的国际分级标准作好标签。训练图像用Kowa VX-10 alpha数码眼底照相机用50°视场拍摄，分辨率为3888×2592和4752×3168，采用24位彩色JPG格式。AI视觉模型的训练采用百度的EasyDL开放平台;模型训练采用迁移学习。神经网络已在其他大型数据集进行了预训练，底层网络的参数大部分已固定。上传训练集图片后，重新训练部分上层网络的参数，构建出新的一个分类器。

三、纳入患者与测试集图片获取

收集2019年1月至2020年5月在我院眼科进行临床DR筛查的150例糖尿病患者（300眼）共300张彩色眼底照片作为测试集，图像由TOPCON-50DX的台式眼底照相机拍摄，眼底照片分辨率为2880×2136，格式为JPG，色彩模式为RGB。测试集可进入百度的EasyDL开放平台，对AI诊断模型进行验证。本研究方案遵循《赫尔辛基宣言》及《药物临床试验质量管理规范》（GCP），入组前患者均已签署知情同意书。所有患者图片均已进行脱敏处理。

四、金标准与评价指标的设定

测试集图片由3位副高及以上职称的眼科医师做标注，采用多数同意的规则，确定同一图片的病变分级。将标注后的图片作为金标准。AI诊断模型完成对病变的检测评价后，将测试数据集分别给予1位有10年以上相关工作经验的中级医师和1位3年以下相关工作经验的初级医师进行检测评价。最后将两者诊断联合，即先由模型进行初筛，再由初、中级医师根据经验进一步做出诊断。分别对比AI诊断模型和初、中级医师诊断的准确性。DR 2级及以上的患者往往需要进一步诊治和随访，故把EasyDL的任务设定为二分类，区分0～1級和2～4级的患者图片，使用5个通用分类指标（准确度、灵敏度、特异度、阳性预测值和阴性预测值）估计分类器的所有深度神经网络模型的性能。

五、统计学处理

使用R3.6.1软件处理数据，通过绘制受试者操作特征（ROC）曲线等进行各评价指标及可信区间的计算，利用nsROC包对比ROC曲线下面积（AUC）间差异。P < 0.05为差异有统计学意义。除训练集和测试集之间的ROC AUC比较采用单侧检验外，其余均用双侧检验。

结果

一、AI诊断模型在训练集和测试集中的评价

本研究共纳入DR 0～1级患者170例，DR 2～4级患者共130例。 AI诊断模型在训练集中表现良好，准确率在91%以上，AUC达到了0.935，但在测试集中各项性能有所下降（表1），AUC仅为0.862，训练集和测试集之间的AUC比较差异有统计学意义（Z = -1.710，P = 0.040）。

二、AI诊断模型与不同级别医师的评价指标对比

AI诊断模型灵敏度高但特异度低，各项诊断指标和中级医师接近，优于初级医师。当AI诊断模型和医师诊断结合时，诊断的准确度和灵敏度均有所提高，见表2。

三、AI诊断模型与不同级别医师的一致性评价

AI诊断模型和医师对测试集进行了2次诊断评价，并对2次结果行kappa一致性分析（AI诊断结果与诊断结果的一致性）。中级医师和初级医师均对相同的数据有一定程度的波动，kappa系数分别为0.88和0.74，提示无论是中级医师还是初级医师，对同一数据判断结果的一致性有波动;AI模型保持了较好的诊断结果的稳定性，kappa系数为1.00（P均< 0.01），见表3。

讨论

目前，国内外关于眼底阅片和AI两者医工结合的研究如火如荼。中山大学中山眼科中心早在2017年5月就开始了眼科疾病的AI诊断系统研发，提示基于深度学习的AI算法用于检测影响视力的DR，开启了我国眼科界AI应用的先河[7]。同年，爱尔眼科医院集团也宣布成功研发眼科AI诊断系统，对DR病变和年龄相关性黄斑变性的诊断准确率已达到93%以上[8]。AI的临床使用将大幅度提升社区医疗机构对DR的筛查效率，但实际效果还有待后续临床实践检验。同时，AI算法大幅度提高了医师临床诊断的准确率和工作效率;提出将AI与眼科医疗结合，既是满足大量眼底病患者的现实需要，更是我国眼科行业在全球后来居上的潜在优势[9]。国外的谷歌正在开发一种AI算法，可以像专家一样识别眼底疾病的共同特征，并可查看视网膜图像，然后像训练有素的眼科医师一样检查DR[10]。这种技术与谷歌用来标记数百万网络图片时使用的机器学习技术异曲同工，表明AI日后将会为医疗技术带来重大革命。但上述研究成果或产品仍然难以在基层医院推广，主要有以下原因：①基层医院无力承担高昂的AI诊断设备费用。②基层医师难以掌握研究所需的算法技术，即使是使用预训练模型或开源框架，对于不太了解机器学习算法的临床医师而言还是有非常大的挑战。③算法技术并非医院的核心技术，基层医院不会提供与算法团队合作的预算[11]。因此，普通医师掌握一种简单、快速使用的深度学习方法对于日常诊疗和科研都非常有帮助。医师自主建立AI模型就需要先掌握深度学习算法原理、计算机原理等，但这对于临床工作繁忙的医师而言也是非常困难，而借助一个开放的AI平台就成为一种值得尝试的诊断辅助手段。

EasyDL是百度开发的开放AI平台，能让毫无算法基础的临床医师快速建立一个计算机视觉识别模型。EasyDL 将整个服务精炼为4个步骤：创建模型、上传并标注数据、训练模型并检验效果、上传模型，临床医师可以在不具备机器学习背景知识的情况下开发模型[12]。EasyDL 大量采用了迁移学习技术[13]。各种基础模型会在百度大规模数据集上进行预训练，并将从中学习到的知识运用到用户提交的小规模训练数据集上，从而实现出色的模型效果和快速的模型训练。本研究开发的AI诊断模型的诊断准确率为0.850（0.810～0.890），灵敏度为0.961（0.900～1.000），特异度为0.765（0.692～0.838），阳性预测值为0.758（0.692～0.823），阴性预测值为0.963（0.931～ 0.995）。但本研究测试集的指标相对于国内外的大型研究仍有差距。考虑到研究所采用的公开数据集、开放AI平台、迁移学习等因素，对眼底照片细分领域不如大型多中心的研究。虽然比起既往大型多中心的研究仍有距离，但各项诊断指标和中级医师诊断接近，优于初级医师诊断。且该项AI技术可让缺乏深度学习算法基础者快速掌握，值得进一步深入研究。

对于DR，AI诊断模型具有良好的一致性[14]。DR的诊断很大程度上取决于医师的经验和主观状态，而AI诊断模型具有强大的学习能力和良好的可重复性，可以克服主观的不稳定性。本研究中，AI诊断模型和初、中级医师对DR病变分别进行了二次评估，用于一致性评价，AI诊断模型每次对病变的判断均保持一致，达到完美的内部一致性。中级和初级医师对同一批DR眼底图片的判断可能会有波动，存在观察者内部一致性差异，而中级和初级医师之间的一致性差异更为明显。这种基于EasyDL的筛查系统具有较高且稳定的诊断性能，消除了医师诊断的主观性，可成为协助临床医师诊断DR的有力工具[15]。

综上所述，本研究建立的AI诊断模型虽然诊断评价指标不如大型多中心研究开发的AI算法，但诊断性能仍优于初级医师，而且具有高度稳定性。AI诊断模型的建模操作过程简单，易于掌握，为基层医师提供了亲手建立DR筛查模型、开展科学研究的路径。

参考文献

[1] 郑志. 糖尿病视网膜病变临床防治：进展、挑战与展望. 中华眼底病杂志， 2012， 28（3）：209-214.

[2] Li J O， Liu H， Ting D S J， et al. Digital technology， tele-medicine and artificial intelligence in ophthalmology： a global perspective. Prog Retin Eye Res， 2021， 82：100900.

[3] Burlina P， Paul W， Mathew P， et al. Low-shot deep learning of diabetic retinopathy with potential applications to address artificial intelligence bias in retinal diagnostics and rare ophthalmic diseases. JAMA Ophthalmol， 2020， 138（10）：1070-1077.

[4] 陸春吉，郭珉江，郑见立，等. 人工智能在基层医疗卫生机构的应用与思考. 中华医院管理杂志， 2019， 35（11）：925-928.

[5] 中国人工智能学会.中国人工智能发展报告（2019—2020）.北京：机械工业出版社，2019：15-18.

[6] Verbraak F D， Abramoff M D， Bausch G C F， et al. Diagnostic accuracy of a device for the automated detection of diabetic retinopathy in a primary care setting. Diabetes Care， 2019， 42（4）：651-656.

[7] Wang Q， Shen D. A cybernetic eye for rare disease. Nat Biomed Eng， 2017， 1（2）： 32.

[8] Ruamviboonsuk P， Cheung C Y， Zhang X， et al. Artificial intelligence in ophthalmology： evolutions in Asia. Asia Pac J Ophthalmol， 2020， 9（2）：78-84.

[9] Nathan D M， Bebu I， Lachin J M. Frequency of evidence-based screening for diabetic retinopathy. N Engl J Med， 2017， 377 （2）：195.

[10] Ting D S W， Peng L， Varadarajan A V， et al. Deep learning in ophthalmology： the technical and clinical considerations. Prog Retin Eye Res， 2019， 72：100759.

[11] Cheung C Y， Tang F， Ting D S W， et al. Artificial intelligence in diabetic eye disease screening. Asia Pac J Ophthalmol （Phila）， 2019， 8（2）：158-164.

[12] Du Y， Yang R， Chen Z， et al. A deep learning network-assisted bladder tumour recognition under cystoscopy based on Caffe deep learning framework and EasyDL platform. Int J Med Robot， 2021， 17（1）：1-8.

[13] 姚添译. 机器学习中迁移学习的发展研究. 中国科技投资， 2018，（3）：374.

[14] Haque A， Milstein A， Li F F. Illuminating the dark spaces of healthcare with ambient intelligence. Nature， 2020， 585 （7824）：193-202.

[15] Yu S， Chen M， Zhang E， et al. Robustness study of noisy annotation in deep learning based medical image segmentation. Phys Med Biol， 2020， 65（17）：175007.

（收稿日期：2020-10-20）

（本文编辑：林燕薇）