基于深度神经网络的机会性CT骨质疏松筛查和骨密度预测研究

2024-03-05 08:55彭涛曾小辉李洋李曼蒲冰洁植彪王永芹
中国医疗设备 2024年2期
关键词:骨量预测值骨质

彭涛,曾小辉,李洋,李曼,蒲冰洁,植彪,王永芹

1.成都大学附属医院 放射科,四川 成都 610081;2.上海联影智能有限公司 研发部,上海 200000

引言

人口老龄化正成为21世纪全球人口发展的主要趋势,骨质疏松和骨折的人数也随之迅速增加,全世界每年大约有2 亿人患骨质疏松症、8900 万人发生骨折[1]。骨质疏松会继发腰痛、骨折,降低患者生活质量,增加死亡率。目前评估骨质疏松症的常用方法为双能X 线吸收测定法(Dual-Energy X-ray Absorptiometry,DXA)和定量计算机断层扫描(Quantitative Computed Tomography,QCT)[2]。但是,目前骨质疏松筛查工作进行得并不充分,仍有大量骨质疏松高危人群未被检出[3-4]。

虽然DXA 应用广泛,但其测量的是单位面积的骨矿含量,容易受到骨皮质、骨质增生和腹主动脉钙化等因素的影响[5-7]。QCT 是一种基于CT 的三维骨密度(Bone Mineral Density,BMD)测量手段,可避开骨皮质、骨质增生等干扰[8-9],进行真实的容积测量。研究表明,QCT 对骨质疏松症的检出率明显高于DXA[10-11],且更精确[12]。在临床上,每天都有大量包含脊柱等骨骼的CT 检查数据产生,如低剂量肺癌筛查、基于其他医学目的的胸腹部CT 检查等,这些CT 检查的数据虽然初始目的为其他医疗原因,但由于其包含了脊柱等骨骼,有可能用于骨质疏松的筛查,被称为机会性CT 检查数据[13]。由于QCT 需要频繁校准和使用标准化软件,且不能同时应用于不同的CT 机,专门进行QCT 检查又有较大的电离辐射,因此大量机会性CT 检查数据无法通过QCT得到应用,这使得QCT 作为筛查技术的应用受到限制。

近年来,人工智能技术迅速发展,深度学习技术有望从大量的机会性CT 扫描图像中获取数据,从而在不增加经济成本、时间和额外电离辐射风险[14]的前提下实现骨质疏松诊断。本研究开发了深度学习BMD 分类和BMD 值预测模型,旨在从不同部位的机会性CT 平扫图像中建立骨质疏松诊断模型,并应用内部测试集和独立数据集进行测试。

1 资料与方法

1.1 研究对象

按照QCT 检查登记顺序选取2021年5—7月在成都大学附属医院进行QCT BMD 检查的267 例CT 平扫数据为研究对象,扫描设备为上海联影uCT 550。研究对象纳入标准:① CT 检查的当天进行过QCT 体模校准;② 胸部CT 平扫包括第2 腰椎(含低剂量和常规剂量);③ 腰椎和腹部CT 平扫。排除标准:① 胸、腰椎有手术史;② 胸、腰椎有压缩骨折;③ 脊柱严重侧弯;④ 腰椎肿瘤、血液系统疾病患者;⑤ 图像质量不满足要求。选取来自另一台CT 扫描仪的54 例平扫病例按照上述纳入排除标准进行病例选择后作为独立测试集,CT 扫描仪为GE LightSpeed VCT(通用电气公司,美国),独立测试集的所有病例均在此次CT 检查前后1 个月内进行过QCT BMD 测定。本研究已经本院伦理委员会审批通过(批准文号:No.PJ2022-047-02),且患者均知情同意。

1.2 CT检查参数

低剂量胸部CT 的管电流在uCT 550 为50 mA,在VCT 为70 mA。uCT 550 其他部位的管电流均为自动毫安。VCT 的管电流在常规剂量胸部CT 为270 mA,在腰椎为400 mA,在腹部采用自动毫安。管电压在两台设备各部位均为120 kV。

1.3 QCT后处理与BMD测定

所有CT 图像都传输到QCT Pro Model 4 后处理工作站(Mindways Software,Inc.,美国)进行BMD 测定。胸部CT 图像测量第12 胸椎~第2 腰椎椎体松质骨,腰椎和腹部CT 图像测量第1~3 腰椎椎体松质骨,在椎体中心位置标记感兴趣区,测量后取平均值作为该患者的BMD 值。诊断标准参照国际临床骨密度测量学会和美国放射学会制定的标准,松质骨BMD<80 mg/cm3为骨质疏松,80 mg/cm3≤BMD ≤120 mg/cm3为低骨量,BMD>120 mg/cm3为正常[15-17]。本研究中BMD 分类为二分类,即设定BMD 正常的病例标签为0,低骨量及骨质疏松的病例标签为1。

1.4 深度学习数据准备

本研究开发了基于密集卷积网络(Densely Connected Convolutional Networks,DenseNet)的深度学习神经网络用于BMD 二分类和BMD 值预测。将所有数据导入联影智能科研平台进行椎体分割,并在X、Y、Z 3 个方向上腐蚀3 mm 获取松质骨作为感兴趣区(Region of Interest,ROI)。计算ROI 相关信息,生成原图路径-类别标签-ROI 信息配对列表。BMD 分类模型采用五折交叉验证的方式进行数据分组。BMD 值回归模型采用随机分组方式按9 ∶1 的比例将数据集分为训练集(n=180)和测试集(n=19)。此外,独立测试集42 例。网络将原始图像作为单通道输入,根据ROI 信息在原始图像的ROI 区域附近采样,并分别进行旋转、平移等数据增强,以增加训练样本的多样性;根据crop_size、spacing 和crop_normalizers 参数进行重采样、裁剪、数据标准化等预处理。实验流程如图1所示。

图1 实验流程图

1.5 BMD分类模型构建

将预处理后的样本输入DenseNet 中进行训练,通过损失函数评估训练过程中的损失。在不断迭代训练中,网络的损失逐步下降,每迭代训练100 次自动进行一次模型保存,并采用测试集样本对保存的模型进行测试,得到每个测试样本的预测类别和预测概率信息。待网络损失下降到足够低后,结束网络训练(图1)。

计算一系列模型中每个模型的各项性能参数,包括受试者工作特征(Receiver Operating Characteristic,ROC)曲线下面积(Area Under Curve,AUC)、F1 得分、召回率、精准度、特异性、准确度。综合各项性能参数选出最优模型,通过独立测试集对最优模型进行评价。通过五折交叉验证的方式获得5 个模型及其在测试集和独立测试集上的性能参数,以及五折交叉验证的平均性能参数。

1.6 BMD预测回归模型构建

在DenseNet 网络中进行训练,通过最小平方误差评估训练过程中的损失,每迭代训练25 次自动进行一次模型保存,待网络损失下降到足够低后,结束网络训练(图1)。

计算一系列模型中每个模型预测出的BMD 值与实际真实值之间的平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Square Error,RMSE)和Pearson 相关系数,选出最优模型,并通过独立测试集对最优模型进行评价。

2 结果

实验最终纳入199 例患者数据用于模型构建,其中,低剂量胸部63 例、常规剂量胸部107 例,腰椎9 例,腹部20 例;其中,低骨量和骨质疏松89 例、正常110 例。独立测试集42 例,其中,常规剂量胸部29 例,腹部9 例,脊柱4 例;其中,低骨量和骨质疏松26 例,正常16 例。合计低骨量和骨质疏松115 例,正常126 例,共241 例。训练测试数据集和独立测试集中男女比例均接近1 ∶1,独立测试集的年龄相对较大,平均年龄超过训练测试集大约9 岁,不同的数据集更能反映模型的能力。

2.1 分类模型算法性能

五折交叉验证的训练集、测试集、独立测试集的混淆矩阵如表1所示,混淆矩阵显示在训练集、测试集和独立测试集中假阴性、假阳性的实际数量和占比均很少。五折交叉验证的训练集、测试集、独立测试集的AUC、F1 得分、召回率、精准度、特异性、准确度如表2所示,在每一折的交叉验证中,上述参数均反映了模型较强的分类能力,在测试集和独立测试集中虽稍有降低,但上述参数都保持在0.8 以上。在每一折参数的均值方面,除了独立测试集的召回率均值为0.862、准确度均值为0.866外,测试集和独立测试集的其他参数均达到了0.9 及以上。测试集、独立测试集的ROC 曲线如图2所示,测试集的AUC 达到了0.95 及以上,独立测试集的AUC 达到了0.9 及以上。

表1 分类模型五折交叉验证训练集、测试集、独立测试集混淆矩阵(例)

表2 分类模型五折交叉验证训练集、测试集与独立测试集各项性能参数

图2 测试集(a)和独立测试集(b)ROC曲线

2.2 回归模型算法性能

最优回归模型预测BMD 值算法性能如表3所示,考虑到BMD 的数值范围和应用背景,深度学习回归模型在测试集和独立测试集的表现上仅具有较小的误差。根据Pearson 相关系数,BMD 的预测值和QCT 测量值呈极强正相关。BMD 预测值相对于QCT 的相关性图和Bland-Altman 图如图3所示,训练集、测试集、独立测试集中分别仅有0.061%、0.053%、0.048%的点落在95%CI之外,预测值和QCT 测量值之间存在显著的线性关联,预测值与QCT 测量值的一致性良好。

表3 深度学习回归模型预测BMD值算法性能

3 讨论

3.1 研究意义

骨质疏松骨折风险分为低、中、高3 级,可进行不同的干预以有效减少致死率和致残率[18-21]。日常医疗活动中有很多因其他医疗目的采集患者CT 图像的机会,其中包含了胸腰椎。本研究采用人工智能技术将机会性CT 数据进行BMD 分类和预测,有可能使BMD 的准确测量成为其他CT 检查的高附加值产品,从而提高骨质疏松筛查的效率。

3.2 分类模型性能

在本研究的分类模型中,第1~5 折的测试集AUC、精准度、特异性、准确度、召回率、F1 得分的均值都在0.91 以上,而独立测试集除召回率均值为0.862、准确度均值为0.886 以外,其他参数均在0.9 以上。因此,可认为本研究的分类模型在测试集和独立测试集的分类任务上均有优秀的表现。Chen 等[22]利用胸部低剂量CT 进行了骨质疏松监测的自动分割和放射组学研究,其二分类模型的表现与本研究接近。在Pan 等[23]的研究中,深度学习模型监测骨质疏松的AUC 为0.927,区分低骨量与正常骨量的AUC 为0.942,也与本研究中的模型性能相当。

3.3 回归模型性能

有报告表明,DXA 可能漏诊26%~60%的骨质疏松症患者[24],且由于QCT 对骨质疏松的检出率比DXA更高[12],因此本研究采取QCT 作为骨质疏松诊断标准。因免除了人工干预,本研究所采取的回归预测流程可更高效、准确地预测BMD。本研究的回归模型在训练集、测试集和独立测试集的MAE、RMSE 均显示预测值和真实值高度吻合;Pearson 相关系数显示预测值与QCT测量值呈极强正相关;P<0.01 表明预测值与QCT 测量值存在显著的线性关联;Bland-Altman 图表明每个测量对象都在±1.96 倍标准差线内均匀分布,且均值线非常接近0,说明预测值与真实值一致性较好。Fang 等[25]采用DenseNet-121 卷积神经网络模型对BMD 进行了计算,显示平均BMD 与QCT 结果具有高相关性(R>0.98),与本研究结果一致。测试集、独立测试集的预测值与QCT 测量值存在数值上的差异,但绝大多数很接近,只是个别数值差异恰好跨越了80 mg/cm3和120 mg/cm3这2 个分界线,可能会造成分类漂移,因此采用回归模型预测BMD 值比单纯分类更客观准确。

3.4 研究的局限性

本研究存在一定局限性:① 样本量较小,但采取了五折交叉验证来应对这一问题;② 分类中只进行了二分类,尚未进一步进行正常、低骨量、骨质疏松的三分类;③ 尚未对骨折风险进行预测;④ 还需要加大独立测试集的数量,以进一步验证模型的能力。

4 结论

基于机会性CT 检查的深度神经网络模型对BMD具有较强的分类能力,可较准确地预测BMD 值,适用范围广泛,可避免多余的辐射风险,减少了时间、经济消耗,可有效扩大骨质疏松筛查的范围,提高老年人的生活质量。

猜你喜欢
骨量预测值骨质
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
骨质疏松知多少
±800kV直流输电工程合成电场夏季实测值与预测值比对分析
关注健康 远离骨质疏松
中老年骨质疏松无声息的流行
骨质疏松怎样选择中成药
军队离退休干部1231例骨密度检查结果分析
法电再次修订2020年核发电量预测值
婴儿低骨量与粗大运动落后的相关性研究
武术运动员退役前后骨量丢失的身体部位及年龄特征