基于深度学习的腕关节DR成像质控模型的研究与应用*

2024-04-07 01:35超,张剑,刘欢,黄英,刘
现代医药卫生 2024年6期
关键词:侧位正位伪影

彭 超,张 剑,刘 欢,黄 英,刘 羽

[1.重庆大学附属中心医院/重庆市急救医疗中心医学影像科,重庆 400014;2.中电通商数字技术(上海)有限公司,上海 200131;3.重庆市公共卫生医疗救治中心/西南大学附属公卫医院医学影像科,重庆 400030]

腕关节是生活和工作中使用频率较高的关节之一,同时又是人体解剖结构最复杂的关节,容易发生骨折、脱位、撞击综合征、骨肿瘤、关节炎性病变及肌腱和韧带损伤等疾病,严重影响患者生活自理、学习工作和运动健身等能力[1]。影像学检查是医学检查的重要组成部分,为临床疾病诊断、病灶的定位及定性、临床治疗方案的选择、疾病的分期及预后等提供了重要依据[2]。随着X线摄影技术的发展与普及,越来越多的医疗机构引进了直接数字平板X线成像系统(DR)设备,且广泛地应用于各个医疗机构的多种业务场景[3]。X线摄影简便、快捷、经济、实用的优势日渐突出,成为腕关节常见疾病检查的优先选择。但因检查设备、操作技师、患者自身及疾病等因素的差异,数据的质量存在较大差异,数据呈现波动特征,随时间和特定事件变化,建立有效的图像质量评价机制对于临床医学图像处理技术具有重大的应用价值[4]。

在图像评价领域,国内影像科还停留在人工参考层面的主观评价(视觉评价),存在效率低、易遗漏、主观性太强、方式落后等弊端,不能有效、快速、全面、可持续性地提高图像质控水平,不能推动影像质控的发展。因此,本研究拟提出具有辅助拍片功能的智能质控系统,对于医疗影像质量的评价和医疗诊断质量的提高均具有重要意义,同时对综合性医院及基层医院影像质控的规范及发展起着至关重要的推动作用。

随着人工智能技术的发展,近年来,深度学习在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域取得了突破性研究进展[5]。本研究中,作者提出了一种全自动的腕关节DR质控系统,该系统以DICOM格式的图像文件作为输入,通过1个分类模型和2个关键点检测模型及其他功能计算函数后,输出多个定量和定性的质控评估结果。分类模型和关键点检测模型都是基于卷积神经网络[6-7]。完成系统构建后,作者将其对实际影像实例的质控结果与来自专业放射科医生的质控结果进行了对比。

1 资料与方法

1.1一般资料 回顾性纳入2013年9月25日至2018年2月10日接受腕关节正位和侧位片检查的1 315张图像,其中包括695张正位片和620张侧位片。该数据集中包含343张具有异物伪影的正位图像,52张无异物伪影的正位图像;234张具有异物伪影的侧位图像,386张无异物伪影的侧位图像。将该数据集以6︰4的比例划分为2组:训练集和验证集,分别用于伪影分类模型和腕关节关键点检测模型,其中正、侧位模型的训练集、验证集分别为417、278张和372、248张。图像的采集设备为DR(uDR 556i型,上海联影医疗科技有限公司;1000-X3型,北京万东医疗科技股份有限公司)。本研究获得重庆大学附属中心医院伦理委员会批准[批准文号:2023年伦审第(20)号]。

4名影像科医生使用Labelme软件(版本5.3.1,https://github.com/wkentaro/labelme)对数据集进行手工标注,本研究中使用的所有数据均是对个人敏感信息过滤处理后的纯医学影像数据[8],每张图像都进行了伪影分类标注和关键点标注。每名放射科医生承担1/4的标注数量,然后检查和修正其他3人的标注以让数据集保持同一标注尺度和规则。正、侧位图像中所定义的关键点具体见图1A、B。

注:A.正位;B.侧位。

1.2方法

1.2.1质控评价标准 参考《重庆市数字医学影像服务检查互认项目质控规范》,本标准包括4个部分:对基本检查信息的评价、对检查体位的评价、对异物伪影的评价、对图像显示与布局的评价。基本检查信息评价任务项包括受检者是否包含影像号、姓名、性别、出生日期、年龄;检查是否包含检查日期、检查时间;检查设备是否包含执行医院名称、设备生产商、设备型号、软件版本号;执行参数是否包含管电压、源到探测器距离、曝光时间;图像显示参数是否包含放大标尺、窗宽、窗位。

检查体位的评价是通过识别图像是否包含完整、准确、无遮挡的左(L)或右(R)标识符号来完成的,结果也是“是”或“否”。异物伪影的评价使用伪影分类模型完成,结果为“是”或“否”。对图像显示与布局的评价需要基于关键点检测模型来完成。通过对模型所获取的关键点坐标与图像尺寸大小的综合计算,逐一判断表1中的8项任务是否合格,以确定图像是否符合质控评价要求,这些具体定义的物理量的含义如图1所示。

表1 腕关节DR正位和侧位片显示与布局评价任务、关键点和判定条件

1.2.2规则和分数 腕关节DR图像质控评价标准的4个部分有相应的评分规则,评价总分为100分。其中,正位和侧位图像具有相同的评价指标,即基本检查信息评价、检查体位评价和异物伪影的评价,三者总分分别为34、20、10分。在基本检查信息评价中,每个子项目为2分,结果为“是”得2分。在检查体位评价中,结果为“是”得20分,结果为“否”,则为0分。在异物伪影评价中,结果为“否”得10分。

在正位图像的显示与布局评价中,任务正位1和正位2均为5分,任务正位3和正位4均为10分,任务正位5为6分。在侧位图像的显示与布局评价中,每个任务为12分。图像显示与布局评价任务的评分规则见表2。由于任务正位4、5和任务侧位1是对2个方向上测量值的评价,所以这3个任务的分数为两部分之和。

表2 腕关节DR正位和侧位片显示与布局评价评分规则

1.2.3评价等级 额外选择了一个由100张正位图像和100张侧位图像组成的腕关节X线验证数据集评估来自质控系统和放射科医生的结果之间的一致性。由于基本检查信息的完整度和检查体位的符号是否存在是不受主观影响的结果,所以只比较伪影和图像显示与布局的一致性。除了二分类任务“伪影是否存在”和“拇指指掌关节是否存在”以外,也为其他任务建立了一个评估等级。表3显示了分数和评价成绩之间的映射关系。对于质控评价总分,将0~<60分归类为D级;60~<80分为C级;80~<90分为B级,90~100分为A级。

表3 质控任务得分与评价等级对应表

1.3方法

1.3.1实验设置 使用MobileNet V2伪影分类模型。输入图像被统一缩放到960×1 920的尺寸大小,并应用数据增强(垂直和水平翻转,±90°旋转,±2%位移,±5%缩放)。模型训练期间,将batch size大小设置为14,将初始学习率设置为0.02。当迭代次数达到40、70次时,学习率将降低到当前值的1/10。使用BCE损失函数和一个具有1e-4权值衰减和0.9动量的SGD优化器训练模型200轮,同时选择了准确率、精准度、召回率和曲线下面积(AUC)作为分类模型评价指标。

关键点检测模型是Global Universal U-Net(GU2Net)。输入图像被统一缩放到640×1 280的尺寸大小,并应用数据增强(垂直和水平翻转,±15°旋转,±15像素偏移)。模型训练期间,将batch size大小设置为16,学习速率设置为[1e-3,1e-2]。使用BCE损失函数和Adam优化器将模型训练200轮,并使用步长50的循环调度器策略将学习率从1e-3动态提高到1e-2。选择平均径向误差(MRE)和成功检出率(SDR)作为指标。MRE计算公式如下。

在上式中,N为检测到的关键点的数量,Ri为预测的关键点坐标与真实标签之间的欧氏距离。SDR显示了在半径(r=2.0、2.5、3.0、4.0 mm)内成功定位的关键点百分比。对于所有的图像,如果数据使用反相灰度图存储,那么在预处理阶段图像灰度将被反转处理。使用的编程语言是Python,卷积神经网络在Pytorch(版本2.0.1)平台上实现。

1.3.2实验设计 在图像质控工作系统中,通过在训练阶段验证损失最小的模型作为推理模型。质控系统的输入是一个DICOM格式的腕关节X线图像文件,输出是多个任务的具体分数和质控评价总分及对应评价等级。字符匹配的方法是将图像进行二值化后执行一个闭运算的形态学计算,最后将得到的所有连通域缩放到64×64的大小,再将连通域的像素值与已预先处理好的同为64×64大小的左(L)和右(R)图像像素值一一匹配。如果相似度超过0.85,则认为检查体位标识存在。

2 结 果

根据验证数据集的实验所得到的伪影分类模型在伪影识别方面具有较高的性能[AUC=0.970 1,95%可信区间(95%CI)0.970 0~0.970 3],其准确率、精准度、召回率分别为0.93、0.88和0.97。正位和侧位影像中关键点检测模型的MRE分别为(0.794 4±3.253 5)mm和(3.813 4±7.408 7)mm。距离10.0 mm下正位和侧位关键点检测模型的SDR分别为99.64%、92.51%,其他距离下的正位和侧位关键点检测模型的SDR见表4。

表4 不同距离下的正位和侧位关键点检测模型的SDR

图2对关键点检测模型的结果和在图像显示与布局评估中的测量值进行了可视化。为便于观察,侧位片中的点4和点5被二者的中点所取代,并命名为P4。在正位视图中,黄色字体表示任务正位3中的角度α;在侧位视图中,青色字体表示任务侧位1中的角度α,黄色字体表示任务侧位2中的角度β。

注:A.正位;B.侧位。

各项任务的混淆矩阵如图3、4所示,其表示了实际情况下质控系统的性能。在正位和侧位片中,异物伪影的准确率、精准度、召回率分别为0.85、0.91、0.87和0.89、0.85、0.91。任务正位1~5的准确率分别为0.91、0.97、0.76、0.89和0.85。任务侧位1~3的准确率分别为0.85、0.80和0.85。在质控结果等级评价上,正位和侧位片的准确率分别为0.82和0.75。图5中的混淆矩阵对正位和侧位片中质控系统的评估等级和放射科医生的评估等级之间的一致性进行了展示。

图3 正位视图中图像显示和布局评估中任务的混淆矩阵

图4 侧位视图中图像显示和布局评估中任务的混淆矩阵

图5 正位与侧位视图中整个工作流评估等级的混淆矩阵

3 讨 论

本研究通过MobileNet V2分类模型和Global GU2Net关键点检测模型上进行训练,结果显示伪影分类模型在伪影识别方面具有较高的性能(AUC=0.970 1,95%CI0.970 0~0.970 3),其模型准确率、精准度、召回率分别为0.93、0.88和0.97。正位和侧位影像中关键点检测模型的MRE分别为(0.794 4±3.253 5)mm和(3.813 4±7.408 7)mm。该模型在正位片和侧位片各项任务中,异物伪影的准确率、精准度、召回率分别为0.85、0.91、0.87和0.89、0.85、0.91。任务正位1~5的准确率分别为0.91、0.97、0.76、0.89和0.85。任务侧位1~3的准确率分别为0.85、0.80和0.85。在质控结果等级评价上,正位片和侧位片的准确率分别为0.82和0.75。本研究为国内首次利用人工智能[9-12]深度学习方式建立腕关节正位和侧位DR质控模型,利用深度学习技术验证可获取高质量的腕关节影像图像,提高了图像质控水平,更精准地为临床服务,同时解决了医院间的检查结果互认问题,也可以提高影像检查的诊断精确性,对临床应用有很高的指导意义。

3.1伪影分类模型训练 MobileNet V2架构基于Inverted Residuals结构,Inverted Residuals结构将ResNet中提出的Residuals结构的降维和升维顺序进行了调换,并且将3×3的卷积换为3×3的深度可分离卷积,其还引入了bottleneck结构防止非线性变换破坏过多的图像信息,该算法具备参数少、性能好的特点[13]。本研究结果表明,在伪影识别方面该模型具有很高的性能,AUC及95%CI值均较高,说明该伪影分类模型在识别腕关节正位和侧位DR图像伪影方面非常好,能够达到高质量质控水准。

3.2关键点检测模型训练 GU2Net适用于多种数据集的关键点检测,由局部网络和全局网络组成。局部网络基于通用U-Net的思想来学习多个区域的局部特征,U-Net网络是由收缩路径和扩张路径组成,收缩路径用于获取上下文信息,扩张路径用于精确的定位,且2条路径相互对称。全局网络是一个并行重复的空洞卷积序列,被用于提取全局图像特征来进一步消除多个关键点之间的歧义。与使用标准卷积的模型相比,GU2Net所需参数要少得多。本研究结果表明,腕关节正位和侧位影像中关键点检测模型的MRE分别为(0.794 4±3.253 5)mm和(3.813 4±7.408 7) mm,说明该关键点检测模型定位精准性高,能够达到高质量质控水准。

3.3腕关节正位和侧位片各项任务测试 目前,人工智能在全身各系统影像工作中得到了快速发展[14-19],但图像质量仍为人工智能诊断模型效能的重要影响因素之一[20]。本研究在质控模型建立后腕关节正位和侧位片各项任务测试中混淆矩阵显示准确率、精准度、召回率均具有较好的结果,弥补了目前DR体系中计算机辅助摄片在影像图像质控方面的不足,且该模型质控应用评价好,临床效果具有非常高的价值,同时人工智能辅助技师阅片效率明显优于影像医师人为阅片,节省了质控阅片时间,保证了质控的一致性,提升了质控质量,有利于影像质控水平的发展。

3.4局限性 (1)样本量有限,虽然运用了先进的分类模型及关键点模型进行训练保证了效能,但后期还需进一步扩充数据、整合模型、提高效能、简化流程。(2)本系统目前还未真正地在临床工作场景中进行研究,后期将运用于临床实践。

综上所述,基于深度卷积神经网络开发的全自动腕关节DR质控系统模型,自动生成腕关节正位和侧位片图像质量控制报告,效果较好,值得临床应用及推广。

猜你喜欢
侧位正位伪影
关于铁路货车制动管系漏泄原因分析及对策建议
骨质疏松合并腰椎退行性病变的骨密度检查体位
核磁共振临床应用中常见伪影分析及应对措施
基于MR衰减校正出现的PET/MR常见伪影类型
金融委的意义在于为金融“正位”
小儿鼻骨侧位X线摄影中头部固定带的制作与应用
论媒体监督在司法领域的“正位”回归
减少头部运动伪影及磁敏感伪影的propller技术应用价值评价
一种无伪影小动物头部成像固定装置的设计
侧位横移转纵移喂梁在架梁工程中的应用研究