基于双参数MRI影像组学构建的支持向量机模型对乳腺癌人表皮生长因子受体-2和激素受体表达的预测效能

2024-03-28 06:54朱银杏王太宇刘志鹏
实用临床医药杂志 2024年4期
关键词:训练组组学乳腺癌

侯 慧,朱银杏,王太宇,张 翼,刘志鹏

(1.江苏省泰州市第四人民医院 影像科,江苏 泰州,225300;2.南京医科大学附属泰州人民医院 信息科,江苏 泰州,225300;3.江苏省泰州市中医院 甲乳外科,江苏 泰州,225300)

2020年乳腺癌在全球女性恶性肿瘤中的发病率及病死率均居首位[1]。人表皮生长因子受体-2(HER-2)阳性乳腺癌约占全部乳腺癌的20%~30%,相较于HER-2阴性,HER-2阳性乳腺癌复发转移率高、预后差[2]。激素受体(HR)阳性乳腺癌是最常见的乳腺癌亚型,占所有乳腺癌的60%~70%[3],其特点是生长相对缓慢,总生存期相对更长[4],而HR阴性乳腺癌复发转移率高、生存率低[5]。目前,主要通过免疫组化(IHC)和(或)原位荧光杂交(FISH)[6]检测HER-2和HR表达水平,但需手术或穿刺活检标本,为有创性检查。因此,临床急需寻找快速、有效、无创的方法来预测乳腺癌的HER-2和HR表达水平。MRI具有无射线伤害、多方位及多参数成像、敏感性高等优点,其在乳腺癌的诊断评估、术后复查中发挥重要作用[7]。乳腺富含脂肪组织,磁共振T2WI 反转恢复压脂(TIRM) 序列使得缺乏脂肪成分的乳腺病灶对比度增加,可有效提高病变检出率[8]。扩散加权成像(DWI)序列通过衡量乳腺细胞中水分子扩散运动的微观状态,检测组织细胞的生理学改变,间接反映出肿瘤细胞的侵袭能力。机器学习作为一种高效数据处理工具,目前已广泛应用于预测模型的构建。其中,支持向量机(SVM)在小样本训练数据上表现较好[9]。故本研究利用TIRM和DWI序列图像的影像组学特征,借助SVM算法构建乳腺癌HER-2及HR表达水平的预测模型,并评估模型的性能,筛选出权重较高的特征,以进一步指导个体化治疗。

1 资料与方法

1.1 一般资料

回顾性收集2015年6月—2023年5月在泰州市人民医院、泰州市第四人民医院及泰州市中医院就诊的患者,经病理(手术或穿刺活检)诊断为乳腺癌。收集乳腺癌患者临床资料(发病年龄、病理结果、免疫组化及原位荧光杂交结果)及磁共振成像检查影像资料。纳入标准:① 乳腺磁共振成像检查在手术及穿刺活检前进行者; ② 磁共振成像检查图像完整且包含TIRM、DWI序列图像者; ③ 手术及穿刺病理结果明确者; ④ 临床一般资料、免疫组化及荧光原位杂交结果完善者。排除标准:① 患者磁共振检查前接受过治疗,如手术、放化疗、内分泌治疗等; ② 患者有乳腺疾病方面手术史或其他肿瘤病史; ③磁共振检查图像质量不佳,如伪影较大,无法诊断及分析者; ④ 边界不清的非肿块样病灶及长径小于1 cm的肿块样病灶者。经上述纳排标准,最终入组128个病灶,其中108例来自泰州市人民医院。按照8∶2的比例采用随机分层方法分为训练组及验证组,15例来自泰州市第四人民医院,5例来自泰州市中医院作为外部测试组。在训练组及验证组中,HER-2阳性26例,HER-2阴性82例; HR阳性71例,HR阴性37例。在外部测试组中,HER-2阳性6例,HER-2阴性14例; HR阳性13例,HR阴性7例。本研究经泰州市人民医院伦理委员会批准,伦理批件号为KY 2023-044-01。

1.2 MRI检查方法

本研究所有乳腺磁共振检查均在德国西门子3.0 T超导型磁共振扫描仪上进行。患者行磁共振扫描前禁食4~6 h。患者俯卧于乳腺专用线圈上,身体轴线与检查床轴线保持一致,将双侧乳腺分别悬垂于乳腺线圈的2个凹槽中心内,扫描过程持续20~30 min。扫描平扫序列包括横断位TIRM序列、横断位T1WI序列、横断位DWI序列及左、右乳矢状位脂肪抑制T2WI序列。

1.3 影像特征提取

采用ITK-SNAP(版本 3.6.0)软件在TIRM、DWI原始图像上手动逐层勾画感兴趣区面积,完成病灶感兴趣区体积的分割。所有病灶的容积感兴趣区(VOI)勾画均由同一位具有3年乳腺影像诊断经验的影像科医师在不知道HER-2及HR表达水平的情况下完成,再由另一位具有20年乳腺影像诊断经验的影像科医师确认。同时结合对照矢状位脂肪抑制T2WI序列、横断位动态对比增强序列图像确定肿瘤位置,避开周边正常乳腺组织、液化坏死区(见图1及图2)。采用Python平台开发的开源软件包 PyRadiomics(版本 3.0.1),将病灶的原始图像与勾画的VOI图像同时导入以提取特征。最终,每个序列分别提取1 321个影像组学特征。

患者52岁女性,左乳12点~1点方向差分化癌,HER-2表达为阴性,HR表达为阴性。

患者53岁女性,左乳1~2点方向浸润性导管癌,HER-2表达为阴性,HR表达为阳性。

1.4 模型的构建与验证

采用Z-score数据标准化处理,以消除所提取的影像组学特征间的尺度差异。对提取的特征数据集,采用基于支持向量机的递归特征消除法,即SVM-RFE算法筛选出最佳的影像组学特征。最终,TIRM、DWI、TIRM+DWI模态分别筛选出10个最具预测性的影像组学特征。利用降维后的特征,分别构建HER-2和HR表达水平的SVM预测模型。

本研究使用5折交叉验证方法保证模型性能的稳定性,通过受试者工作特征(ROC)曲线来评估模型的鉴别能力,包括曲线下面积(AUC)、准确度、灵敏度、特异度、精准率和f1-score等定量指标。使用DeLong检验评价各影像组学模型AUC之间的差异。采用SHAP算法获取TIRM、DWI序列的每个影像组学预测特征的权重,并按重要性依次排序列出前10位的特征,SHAP值表示每个特征对最终预测的贡献程度。P<0.05为差异有统计学意义。

2 结 果

2.1 HER-2受体表达水平预测

基于10项影像组学特征构建的TIRM序列图像的SVM预测模型训练组的AUC为0.85(95%CI,0.82~0.88); 验证组的AUC为0.80(95%CI,0.70~0.89)。DWI预测模型训练组的AUC为0.88(95%CI,0.80~0.95); 验证组的AUC为0.66(95%CI,0.48~0.84)。联合模型训练组的AUC为0.94(95%CI,0.90~0.98); 验证组的AUC为0.90(95%CI,0.81~0.98),见图3。在验证组中采用Delong检验比较上述3种模型的性能,TIRM+DWI模型对HER-2表达的预测效能高于TIRM模型和DWI模型,差异有统计学意义(P<0.05),见表1。

表1 不同模型评估乳腺癌HER-2表达水平的预测效能

A:训练组的ROC曲线; B:验证组的ROC曲线; C:测试组的ROC曲线。

TIRM+DWI模型外部测试组的AUC为0.89(见图3),SHAP算法得出DWI_wavelet-HLL_glszm_SmallAreaHighGrayLevelEmphasis特征贡献较大,其他特征的贡献程度如图4所示。

图4 预测HER-2状态联合模型测试组的SHAP特征权重分布峰图及权重均值直方图

2.2 HR受体表达水平预测

基于10项影像组学特征构建的TIRM序列图像的SVM预测模型ROC曲线中训练组的AUC为0.84(95%CI,0.81~0.88),验证组的AUC为0.68(95%CI,0.48~0.88)。DWI序列图像的SVM预测模型训练组的AUC为0.92(95%CI,0.90~0.93),验证组的AUC为0.86(95%CI,0.82~0.91)。联合TIRM、DWI序列图像的SVM预测模型训练组的AUC为0.96(95%CI,0.95~0.97),验证组的AUC为0.88(95%CI,0.78~0.98),见图5。采用Delong检验比较上述3种模型AUC之间的差异,在验证组中,TIRM+DWI模型(AUC=0.88)、DWI模型(AUC=0.86)对HR表达的预测效能高于TIRM模型(AUC=0.68),差异有统计学意义(P<0.05); TIRM+DWI模型的AUC稍高于DWI模型,但差异无统计学意义(P>0.05),见表2。

表2 不同模型评估乳腺癌HR表达水平的预测效能

A:训练组的ROC曲线; B:验证组的ROC曲线; C:测试组的ROC曲线。

TIRM+DWI模型外部测试组的AUC为0.90(见图5),TIRM_ wavelet-HHL_glrlm_GrayLevelVariance特征的预测贡献较大,其SHAP权重均值为0.11(见图6),高于筛选出的其他9个特征。

图6 预测HR状态联合模型测试组的SHAP特征权重分布峰图及权重均值直方图

3 讨 论

乳腺癌是一种具有高度异质性的疾病,不同的受体表达状态,其治疗方式、生存期长短存在显著差异[10-12]。除接受常规的手术治疗、放化疗外,HER-2阳性亚型可接受单克隆抗体的靶向治疗,HR阳性亚型还可采用内分泌治疗,因此对HER-2和HR表达水平的早期评估具有重大意义。乳腺癌多参数MRI广泛应用于临床常规成像检查,并用于肿瘤诊断和治疗反应评估[13]。影像组学已被用作一种定量分析方法,可提供关于肿瘤生物学特征的全面客观信息[14]。目前,研究[15]表明,MRI磁共振影像组学模型在预测乳腺癌分子亚型、腋窝淋巴结转移、新辅助化疗反应方面具有较好效能。本研究共收集128例乳腺癌病灶,其中HER-2阳性32例、HER-2阴性96例,HER-2阳性例数占样本总量的25.0%; HR阳性84例、HR阴性44例,HR阳性例数占样本总量的65.6%; 整体分布水平与大多数乳腺癌受体表达水平相关的流行病学调查一致[2-3]。

既往研究[16-17]表明,MRI影像组学可作为预测乳腺癌HER-2表达状态的有效工具。研究[18]发现,联合多序列MRI的总特征构建的多层感知器(MLP)模型具有较佳的预测乳腺癌分子亚型效能,证明了多模态MRI特征早期预测HER-2表达状态的可行性。另一研究[19]结果也表明,基于对比增强的影像组学在预测乳腺癌组织学亚型方面表现良好。

本研究与既往研究不同,本研究采用TIRM和DWI序列图像,即在平扫的图像上构建预测模型,评估不同模型的预测效能,发现基于TIRM和DWI序列图像特征构建的联合模型评估HER-2及HR状态的效能优于单一序列,联合模型在训练组和验证组均表现出良好的预测效能,外部测试组同样证明了联合模型的预测效能处于较高水平。这可能跟多序列图像信息更加全面、综合地反映病灶特点等相关。本研究采用SVM分类器构建用于预测乳腺癌HR表达的模型时,TIRM和DWI序列分别筛选了10个影像组学特征,大多数为高阶变换特征,与相关研究[20]结果一致。本研究在训练组及测试组中表明,形态学特征和低阶统计学特征与HER-2与HR表达状态的相关性较小,而基于变换的高阶纹理特征与受体表达状态存在较大的相关性,机器学习模型解释可视化工具SHAP结果表明高阶变换特征DWI_wavelet-HLL_glszm_SmallAreaHighGrayLevelEmphasis和TIRM_ wavelet-HHL_glrlm_GrayLevelVariance在最优预测HER-2和HR表达状态方面具有较大贡献力。可能的原因是高阶特征能够反映出空间上体素之间的差异[21],从而更加能够量化肿瘤的异质性。但研究存在一定局限性:首先,纳入的乳腺癌病理类型较局限,主要为浸润性导管癌(104例),未来需要收集其他病理类型乳腺癌纳入研究; 其次,本研究为多中心、回顾性研究,样本量较少,仅纳入128例病灶进行研究,且过程中存在一定选择偏倚,还需要扩大样本量来验证模型预测效能; 最后,本研究未分析乳腺癌MRI影像组学特征与其他基因表达的相关性,未来需要进一步探讨MRI影像组学预测乳腺癌分子分型的能力。

综上所述,基于TIRM和DWI序列图像借助SVM算法构建的影像组学模型可以无创预测乳腺癌HER-2及HR的表达状态,可避免对癌症患者进行不必要的活检。

猜你喜欢
训练组组学乳腺癌
绝经了,是否就离乳腺癌越来越远呢?
新型抗阻力训练模式改善大学生身体素质的实验研究
跑台运动训练对脊髓损伤大鼠肺功能及HMGB-1表达的影响
线上自主训练与线下指导训练表面肌电差异分析
乳腺癌是吃出来的吗
口腔代谢组学研究
胸大更容易得乳腺癌吗
别逗了,乳腺癌可不分男女老少!
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
代谢组学在多囊卵巢综合征中的应用