前列腺癌与前列腺增生的分类预测及癌症风险因素分析

2021-07-01 03:17王逸飞薛万国石金龙王彬华顾良友
解放军医学院学报 2021年3期
关键词:游离前列腺癌前列腺

王逸飞,吴 欢,薛万国,石金龙,王彬华,顾良友,艾 青

1 解放军总医院医学创新研究部 医学大数据研究中心,北京 100853;2 解放军总医院第一医学中心 泌尿外科,北京 100853

前列腺癌是男性泌尿生殖系统最常见的恶性肿瘤之一,全球2019年预估前列腺癌新增病例数位列男性恶性肿瘤第1位,位列全球恶性肿瘤第2位[1]。在我国,前列腺癌发病率呈现大幅上升趋势,自2012年起位列男性恶性肿瘤第6位[2]。前列腺增生作为一种良性病变,其与前列腺癌之间的快速鉴别是临床面临的难题之一[3]。以前列腺特异性抗原(prostate specific antigen,PSA)为基础的前列腺疾病筛查虽然一定程度上可以早期发现前列腺癌,但存在假阳性率高的问题[4]。医学大数据的快速积累和机器学习方法的广泛应用为临床疾病诊断及预测提供了新手段[5-7]。其中XGBoost算法具有较好的预测能力和稳定性,近年来在多项临床疾病预测中取得了良好结果[8-9]。本文拟利用XGBoost算法构建前列腺增生和前列腺癌患者的分类模型,比较两类患者的临床特征,发现可标识癌变的有效指标,并通过SHAP分析获取指标截断值,为癌症早期筛查提供参考。

资料与方法

1 数据来源 本文数据来源于2019年解放军总医院国家临床医学科学数据中心、国家人口与健康科学数据共享平台提供的“前列腺癌数据集”,数据集中共包含1 438例前列腺增生患者及1 613例前列腺癌患者的真实临床信息。

2 数据预处理方法 通过核查病理报告,删除治疗后(内分泌治疗、化疗或手术治疗后)的样本272例,删除标签与病理报告不相符的样本48例,剩余样本2 731例。在此基础上,删除数据完整度小于70%的8个特征以及数据完整度小于70%的252例样本[10]。经过预处理后,共保留特征23个,样本2 479例,其中前列腺增生患者1 255例,前列腺癌患者1 224例。

3 XGBoost分类与SHAP特征解释 XGBoost是一种基于梯度Boosting的集成学习算法,通过弱分类器的迭代计算获得更准确的分类效果,与传统分类算法相比具有速度快、可自动补全缺失值、准确度高等优势[11]。SHAP是一种利用期望与沙普利值对机器学习模型结果进行解释的方法,可量化每个特征要素与模型预测能力的关系和贡献度,有助于解释模型特征的实际意义[12-13]。

4 统计学方法 1)应用IBM SPSS Statistics 24.0进行统计分析。观测资料主要为计量数据。若数据满足正态性以表示,组间比较采用独立样本t检验;若为偏态数据,以中位数Md(IQR)进行描述,采用Mann-Whitney秩和检验。P <0.05为差异有统计学意义。2)使用Python3.6中集成的XGboost工具包进行分类模型的训练与测试,利用SHAP工具包对模型特征进行解释。①将数据集中的正样本(前列腺癌患者)与负样本(前列腺增生患者)打乱排列顺序并进行随机拆分,得到数据量占比为7∶3的训练集与测试集;②在训练集中通过5折交叉验证与网格搜索法确定XGBoost算法的参数并完成模型训练,利用测试集进行验证并通过曲线下面积(area under the curve,AUC)值、准确率、召回率、精确率和F1值5个指标评价分类模型的性能;其中训练集与测试集分别使用XGBoost内部集成的填补方法对缺失值进行处理。3)利用SHAP方法对训练完成的模型进行特征解释,输出特征中每个要素对模型的贡献程度。

结 果

1 前列腺癌与前列腺增生患者临床资料比较对1 224例前列腺癌及1 255例前列腺增生患者纳入模型的23项指标进行描述统计及组间差异比较(表1),年龄、体质量指数(body mass index,BMI)、游离PSA、总PSA、游离PSA/总PSA、血清白蛋白(serum albumin,Alb)、三酰甘油(triglyceride,TG)、肌酸激酶(creatine kinase,CK)、肌酸激酶同工酶(creatine kinase isoenzyme,CK-MB)、低密度脂蛋白胆固醇(low-density lipoprotein cholesterol,LDL-C)、载脂蛋白A1(apolipoprotein A1,ApoA1)、载脂蛋白B(apolipoprotein B,ApoB)、氯化物(chloride,Cl)、无机磷(inorganic phosphorus,P)、钙(calcium,Ca)、游离钙(free calcium,free-Ca)在前列腺增生和前列腺癌患者间的差异有统计学意义。

表1 前列腺癌与前列腺增生患者临床资料比较Tab.1 Comparison of clinical data about patients with prostate cancer or prostate hyperplasia

2 模型分类效果评价 将训练集与测试集分别输入训练完成的模型进行分类预测,得到5个评价指标的结果(表2)。训练集与测试集分类结果的差异控制在一定范围,未发生模型的过拟合;测试集的各评价指标表现较好,表明通过本文的23个特征可有效对前列腺癌与前列腺增生进行区分。

表2 模型对训练集与测试集的分类结果Tab.2 Models’ performance in training set and validation set

3 特征权重排序 模型中特征重要性排在前6位的分别是游离PSA/总PSA、总PSA、无机磷、游离PSA、碱性磷酸酶(alkaline phosphatase,ALP)与CK-MB。见图1。

图1 模型特征权重排序Fig.1 Feature weight ranking of the model

4 SHAP特征分析 对排名前6的特征进行SHAP分析,得到特征中不同要素对模型的贡献度(图2)。在游离PSA/总PSA(图2A)的特征要素中,存在典型纵轴x=0.132,当x ≤ 0.132时模型认为这些要素点来自前列腺癌患者,反之模型将这些要素点归为前列腺增生患者。P与CK-MB(图2C,图2F)的典型纵轴分别为x=1.09与x=11.8,小于以上值时模型将此要素点归于前列腺增生患者,反之则认为属于前列腺癌患者。总PSA(图2B)值>6且<15时处于一个“模糊地带”,无法确定这个区域的要素点对模型预测分类的贡献度,≥ 15时模型认为属于前列腺癌患者。游离PSA(图2D)值为1.5~5时,模型更倾向要素点属于前列腺增生患者。在ALP(图2E)中当要素点值>60或<120时,模型将其预测为前列腺癌患者,当值为60~120时,模型将其预测为前列腺增生患者。

图2 权重排名前6特征的SHAP值Fig.2 SHAP value for the top 6 characteristics

5 总PSA值在两组患者中的占比分布 在本文数据集中,总PSA值在前列腺增生和前列腺癌两组患者中的占比分布如图3所示。随着总PSA值大于4 ng/mL,前列腺癌与前列腺增生患者数量占比之间的差值呈现由负数到正数的逐渐增大趋势,然而仍有约30%的前列腺癌患者总PSA值小于4 ng/mL,约24%的前列腺增生患者总PSA值大于10 ng/mL。

图3 总PSA值在前列腺增生与前列腺癌中的占比分布Fig.3 Proportion of the total PSA in prostate hyperplasia and prostate cancer

讨 论

总PSA作为前列腺癌筛查的重要指标,临床诊断治疗指南中认为其值大于4 ng/mL则为异常,4~10 ng/mL构成了前列腺癌判定的灰区,需要辅助其他方法进行评判[14]。本文预测模型的解释结果提示总PSA值6 ng/mL与15 ng/mL是两个值得关注的节点,结合图3结果,提示诊疗指南中提到的“模糊地带”的值有向更大方向发展的趋势,现有的4 ng/mL和10 ng/mL关键节点仍值得进一步地讨论。

相较于总PSA,游离PSA/总PSA这一比值在模型预测中表现出更好的组间分类能力,特征重要性排名第一,这在其他研究中也得到了验证[15-17]。周利群等[18]曾指出0.16是较合理的游离PSA/总PSA临界值,而在本文中由图2可知,游离PSA/总PSA的值在0.132处出现了断层分布节点,提示可利用此比值临界点进行前列腺增生患者与前列腺癌患者的鉴别,这是本文的创新发现之一,有助于临床利用游离PSA/总PSA辅助总PSA进行前列腺癌症患者的早期筛查。

在本文训练的前列腺增生与前列腺癌分类预测模型中,无机磷的重要程度仅次于游离PSA/总PSA比值与总PSA,在值等于1.09 mmol/L处存在断层点,尽管这个值虽然处于无机磷的正常范围(0.89~1.6 mmol/L),但仍提示血清无机磷若高于此值会增加被诊断为前列腺癌的风险。曾有研究指出,高磷饮食会增加前列腺癌的风险[19],本文结果与之可相互佐证。

利用XGBoost算法构建模型,本文对前列腺增生患者与前列腺癌患者进行了分类预测,模型的评估指标证实了模型的有效性,进一步运用SHAP分析对模型进行特征解释,解决了机器学习结果的黑盒化问题,提出了前列腺癌早期筛查的重要指标与典型截值,可为临床辅助诊断提供有益参考。由于数据本身限制,一些与前列腺癌风险预测相关的特征如前列腺体积大小未能列入模型,后续尚需进一步研究。

猜你喜欢
游离前列腺癌前列腺
游离股前外侧穿支皮瓣修复足踝部软组织缺损
治疗前列腺增生的药和治疗秃发的药竟是一种药
前列腺良恶性肿瘤应用DCE-MRI鉴别诊断的作用分析
莫须有、蜿蜒、夜游离
MTA1和XIAP的表达与前列腺癌转移及预后的关系
前列腺癌,这些蛛丝马迹要重视
治疗前列腺增生的药和治疗秃发的药竟是一种药
与前列腺肥大共处
前列腺癌治疗与继发性糖代谢紊乱的相关性
微小RNA-424-3p和5p对人前列腺癌细胞LNCaP增殖和迁移影响的比较