基于Notch通路相关基因结肠癌预后模型的构建及验证

2022-07-19 02:11王俊杰詹雪冰罗倩况云舒陶香香朱晓群梁箫赵同洋陈冰
右江民族医学院学报 2022年3期
关键词:线图腺癌结肠

王俊杰,詹雪冰,罗倩,况云舒,陶香香,朱晓群,梁箫,赵同洋,陈冰

(皖南医学院病理学教研室,安徽 芜湖 241002)

结直肠癌(colorectal cancer,CRC)是包括在结肠和直肠中发生的恶性肿瘤,也是世界上发病率和死亡率最高的恶性肿瘤之一。据统计,2020年新发CRC病例超过190万例,死亡人数超过93万例,约占全部癌症病例和死亡人数的10%,总的来说,CRC在癌症发病率上排名第三,在死亡率上排名第二[1]。在中国,CRC是发病率和死亡率最高的五大肿瘤之一。近年来,随着社会经济水平的提高及生活和饮食结构的改变,我国结直肠癌总体发病率与死亡率呈现明显上升趋势,且存在结肠癌构成比逐年增加[2]。而超过60%的CRC发生在结肠,结肠癌中最常见的病理类型为结肠腺癌[3]。结肠腺癌被认为是一种异质性疾病,遗传变异、细胞和外界环境的影响与肿瘤的发生、发展和转移有关[4],结肠腺癌的发生率和病死率都很高,治疗以手术切除和化疗为主[5]。因此探究结肠腺癌发生相关机制及找到合适的生物标志物能有效提高对结肠腺癌诊断、治疗、预后和预防的能力。

Notch信号通路是一种进化上保守的细胞间信号级联,调节邻近细胞之间的通讯、细胞发育、增殖和凋亡以及基因组的稳定性。它是介导细胞间直接接触的主要信号通路之一[6]。近年来研究发现,Notch信号通路的改变与代谢性疾病、内分泌疾病、遗传性疾病和肿瘤(包括结肠腺癌)的发生发展密切相关[7-8]。肿瘤血管生成可以满足肿瘤生长的代谢需要,为远处转移提供血管通路。因此Notch信号通路被认为与肿瘤的进展、侵袭和转移有关,是潜在的肿瘤预后指标[9-11]。

尽管结肠镜检查仍然是诊断结肠腺癌的金标准,但它具有侵入性,费用昂贵,患者依从性较差。先进的肿瘤生物标志物对肿瘤的诊断具有较高的敏感性和特异性,有助于肿瘤的早期检测[5]。以往对结肠腺癌生物标志物的研究尚未取得理想的结果。在本研究中,利用来自癌症基因组图谱(TCGA)的转录组数据,筛选了结肠腺癌患者中差异表达的Notch通路相关基因,开发了一个与Notch通路相关的与结肠腺癌患者预后密切相关的基因特征,并通过预后列线图验证其预测价值。在本研究中,新的潜在预后标志物也为理解结肠腺癌进展的复杂机制提供了初步的生物信息学证据。

1 材料与方法

1.1 数据下载与整理 结肠腺癌患者的mRNA表达数据和相应的临床数据从癌症基因组图谱(TCGA)官方网站(https://tcga-data.nci.nih.gov/tcga/)下载,设置搜索条件为:Colon、TCGA-COAD、RNA-Seq,得到444例患者资料,剔除临床信息和生存资料不全病例后,最终将385份临床资料纳入研究。使用Perl 语言(Perl strawberry 5.32.1.1)整理数据并提取TCGA数据库中385例结肠腺癌患者mRNA转录组数据用于基因富集分析。

1.2 Notch信号通路相关基因集的筛选 分子签名数据库(MsigDB,https://www.gsea-msigdb.org/gsea/msigdb/)是一组用于GSEA软件的注释基因集数据库。以“Notch”作为关键词下载8个注释基因集(“BIOCARTA NOTCH PATHWAY”,“GO NEGATIVE REGULATION OF NOTCH SIGNALING PATHWAY”,“BIOCARTA PS1 PATHWAY”,“GO_NOTCH_SIGNALING_INVOLVED_IN_HEART_DEVELOPMENT”,“NOTCH DN.V1 DN”,“NOTCH DN.V1 UP”,“NOTCH SIGNALING PATHWAY”,“REACTOME SIGNALING BY NOTCH”)。使用Perl语言,整理出GSEA输入文件(表达数据集文件和表型数据文件),包括了TCGA结肠腺癌转录组数据中基因表达数目、基因表达量和分型(肿瘤样本或癌旁样本)。使用GSEA 4.2.0软件上传输入文件和注释基因集后,设置排列数为“1000”,设置表型标签为“T versus N”进行1000次排列数的基因富集分析,富集上述8个Notch信号通路基因集。以FDR<0.05和|log2(FC)|>1作为截止标准,纳入了NOM p-val、FDR p-val、FWER p-val均<0.05的基因集,筛选出肿瘤样本和癌旁样本之间存在显著差异的基因集。

1.3 差异表达基因的筛选 使用Perl语言提取筛选所得基因集内Notch信号通路相关差异表达基因391个,通过R语言(limma包)将差异表达基因与TCGA结肠腺癌临床数据中生存时间和生存状态合并用于构建结肠腺癌患者的预后模型。

1.4 Notch通路相关基因预后风险模型的构建 利用R语言(survival包),使用比例风险回归模型(proportional hazards model,简称 Cox模型)进行单因素与多因素Cox回归分析并汇制森林图。将最终筛选出的5个Notch通路相关基因,建立最优的Notch通路相关基因预后模型。

1.5 绘制Notch通路相关基因预后风险模型生存曲线与ROC曲线 根据所得Notch通路相关基因预后模型计算结肠腺癌患者的风险评分后,将385例患者分为高风险组和低风险组,通过R语言(survival包,survminer包)绘制Kaplan-Meier曲线,评估高危组和低危组生存结果的显著性差异。采用R语言(survival ROC包)绘制受试者工作特征曲线(ROC)检测所构建预后模型的临床价值。

1.6 结肠腺癌预后列线图的构建 在本研究中分析了临床因素(年龄、性别、分期、T、N、M)和选择与结肠腺癌预后密切相关的风险评分作为临床独立因素。通过R软件,将所有测试的临床独立因素用于构建Notch信号通路相关基因结肠腺癌患者预后列线图(https://cran.r-project.org/web/packages/rms/),评估结肠腺癌患者3年和5年总生存期的概率,并将筛选的Notch通路相关基因评分包括在另一个列线图中,以预测结肠腺癌患者1年、3年和5年总生存期的概率。此外,为了探究预后列线图的预测准确性,时间依赖的生存ROC分析由R软件中的“survival ROC”包进行,“survival”包验证C-index,“RMS”包验证校准曲线,所有统计检验均采用R软件(version 3.6.1)进行。P<0.05被认为有统计学意义,所有检验均为双向检验。

1.7 GEO验证队列验证结肠腺癌患者预后模型及列线图 在GEO数据库(http://www.ncbi.nlm.nih.gov/geo)下载结肠腺癌微阵列表达数据集GSE29621,其实验平台为GPL570,临床病理资料信息见表1。整理数据后,使用EXCEL 2020提取预后模型中5个Notch信号通路相关基因表达量,并利用风险评分公式计算出样本中患者的风险评分,分为高风险组和低风险组。使用R软件中的“survival ROC”包绘制ROC曲线,“survival”包计算C-index,“RMS”包验证校准曲线。

1.8 人类蛋白图谱分析 人类蛋白图谱(HPA)(https://www.proteinatlas.org/)是一个免费访问的网站,有助于研究人类组织和细胞中的蛋白表达[12]。通过免疫组化图像分析了结肠腺癌和正常组织中Notch结肠腺癌通路相关基因的表达情况。

1.9 统计学方法 采用R软件(4.0.2)分析数据,其中对于肿瘤分期等级资料进行秩和检验(Mann-whitneyU检验),Kaplan-Meier法计算总体生存率(OS),Log-rank检验评价各变量不同亚组生存差异的显著性,连续变量用中位数和平均数表示,分类变量用例数(百分率)表示。使用Cox单因素分析筛选有意义的变量,将单因素分析中P<0.05的变量纳入多因素Cox比例风险模型,以防止具有独立预测意义的变量遗漏。基于影响结肠腺癌预后的独立危险因素,使用R软件(4.0.3)中的rms、survival等程序包构建绘制列线图。在验证集中进行外部验证,模型的区分度用C-index、ROC曲线及曲线下面积(AUC)进行评价,同时通过绘制校准曲线检测模型的校准度,以确保模型准确可靠。

2 结果

2.1 TCGA与GEO数据库结肠腺癌患者临床病理资料 提取出有完整临床资料的结肠腺癌病例共450例,男性245例,女性205例,年龄31~90岁,平均年龄(67.01±13.21)岁。见表1。

表1 385例TCGA与65例GEO数据库结肠腺癌患者临床资料

2.2 结肠腺癌中差异表达的Notch通路相关基因的鉴定 最终选取了3个在肿瘤组织和癌旁组织中显著差异的基因集(“NOTCH_DN.V1_DN”,“REACTOME_SIGNALING_BY_NOTCH”,“NOTCH_DN.V1_UP”)用于提取差异表达基因,见图1。3个Notch信号通路相关基因集中共鉴定出391个差异表达基因,其中上调基因186个,下调基因205个。

图1 基于CSEA分析得到3个有效的Notch通路基因集

2.3 生存相关Notch通路相关基因的鉴定 通过单因素Cox回归分析,共发现14个差异表达的Notch通路相关基因与结肠腺癌患者的OS显著相关。随后,使用多变量Cox回归分析将差异表达基因筛选至5个,并建立Notch信号通路相关基因的预后模型。该预后模型包含5个Notch通路相关基因,包括CDHR2(钙粘蛋白相关家族成员2)、KRT8P12(角蛋白8假基因12)、NEURL1B(神经元化E3泛素蛋白连接酶1B)、SELE(选择素E)、FSTL3(卵泡抑素样3),见表2。

表2 多因素Cox获得结肠腺癌患者Notch信号通路相关基因预后模型

2.4 Notch通路相关基因预后模型的构建 385例结肠腺癌患者的风险评分=(-0.03628×CDHR2表达值)+(0.39496×KRT8P12表达值) +(-0.04810×NEURL1B表达值)+(0.27620×SELE表达值)+(0.03329×FSTL3的表达值),并根据临界值分为低危组和高危组。生存分析显示,高风险评分与不良生存预后显著相关(P<0.01)。使用ROC曲线进一步评估Notch通路相关基因特征风险评分的预后价值,曲线下面积(AUC)为0.748,提取GSE29621中结直肠癌患者预后模型内基因表达量绘制ROC曲线,所得AUC=0.708,提示生存结果具有较高的预测准确性,见图2。

a:Notch信号通路预测模型ROC曲线;b:基于Notch信号通路风险评分的结肠腺癌患者KM生存曲线;c:GEO临床数据验证Notch信号通路预测模型ROC曲线。

2.5 Notch通路相关基因预后模型的验证 通过绘制5个已识别的差异表达基因的表达模式、风险评分分布和生存状态谱,比较了原始和验证队列中的低风险和高危组的生存状况,见图3。风险图显示风险评分表现良好,热图显示3个高危基因(KRT8P12、SELE、FSTL3)在高危组中过表达,2个Notch通路相关基因在低危组中过表达,这与本研究构建预测模型结果相一致。

图3 构建Notch信号通路预后模型风险热图

2.6 Notch通路相关基因特征是结肠腺癌的独立预后因素 单因素Cox回归分析显示,分期和特征风险评分与结肠腺癌患者的总生存期相关。多变量Cox回归分析显示,风险评分与结肠腺癌患者的总生存期独立相关(P<0.01),见图4。这些结果表明,Notch通路相关基因特征风险评分是结肠腺癌的独立预后因素。

图4 基于TCGA患者临床数据单因素Cox回归分析及多因素Cox回归分析构建森林图

2.7 结肠腺癌预后列线图的构建和验证 为了建立一种临床适用的结肠腺癌患者预后监测方法,本研究结合临床病理特征(年龄、性别、分期、T、N、M)和Notch通路相关基因特征风险评分,构建了预后列线图。结果表明,该预后列线图可以更好地预测结肠腺癌患者的1年、2年和3年总生存期,见图5。使用GEO队列评价列线图的价值,校准曲线显示,两个队列的列线图与预测和实际总生存期有较好的一致性。ROC-AUC为0.969。列线图C-index在研究队列中为0.759,在验证队列中为0.760,见图6。

a、b、c:结肠腺癌患者1年、3年、5年OS的校准曲线;d:结肠腺癌患者列线图ROC曲线。

图5 基于Notch预后模型及风险评分构建结肠腺癌患者预后列结图

2.8 Notch通路相关基因预测模型与结肠腺癌的分级和TNM分期密切相关 结肠腺癌患者的治疗策略显著取决于肿瘤的分期,通过比较TCGA队列中结肠腺癌之间的Notch通路相关基因特征风险评分与肿瘤TNM分期的关系,显示高低风险组内不同分期之间对于患者生存期有显著差异(P<0.05),见图7。

图7 Notch信号通路相关基因结肠腺癌预测模型与结肠腺癌分级TNM分期相关

2.9 通过人类蛋白图谱分析进行验证 为了进一步探究结肠腺癌中Notch通路相关基因蛋白的表达,本研究分析了来自HPA的免疫组化染色图像结果显示,除在结肠腺癌患者的蛋白表达中未检测到SELE外,KRT8P12在HPA中未检测到外,其余3个基因在肿瘤组织中表达较高,而在正常组织中均未检测到,进一步验证构建临床预测模型优良作用,见图8。

图8 Notch信号通路相关基因在HPA中的免疫组化情况

3 讨论

既往研究表明[11],Notch信号通路的异常可导致身体功能调节的紊乱和肿瘤的发生。在本研究中GSEA基因集内鉴定了Notch通路相关基因的差异表达,其中三个基因已被证实与结肠腺癌的总生存期显著相关。最终选择5个Notch通路相关基因(CDHR2、KRT8P12、NEURL1B、SELE、FSTL3)作为结肠腺癌预后特征模型,生存分析显示,高风险评分与不良生存预后显著相关。使用单变量和多变量Cox回归分析来说明与Notch通路相关的基因特征是结肠腺癌的独立的预后因素,通过构建预后列线图临床病理特征,可以更好地预测结肠腺癌患者的总生存期。此外,使用C指数、曲线下面积和校准曲线来评估列线图的价值,这在所有测试中都表现良好。最后使用人类蛋白图谱数据库,深入验证Notch通路相关基因与结肠腺癌之间的相互作用。

结肠腺癌Notch信号通路相关基因预后模型内基因均在恶性肿瘤的生物学研究中被报道。Notch通路相关基因CDHR2作为Pcdh超家族成员,在肿瘤的发生发展中起着重要作用。CDHR2最早在人肝癌、肾癌和结直肠癌中表达,因此被命名为原钙黏蛋白lkcl17[13]。CDHR2的C端可与hmast205蛋白的PDZ区结合,起到接触抑制作用。其他研究表明,galectin-1和galectin-3能与CDHR2的胞内片段结合,使E-Catenin留在胞浆内,从而抑制细胞凋亡β-catenin信号通路[14-15]。它由一系列蛋白质区域组成。其结构的复杂性决定了其功能的即时性和特异性。SELE(lecam2,ELAM-1),在内皮细胞上表达,并参与携带配体唾液酸化路易斯寡糖-A和唾液酸化路易斯寡糖-X的白细胞的粘附和外渗[16]。相关研究表明SELE在乳腺癌、骨肉瘤中是合适的生物学标志物[17-18]。FSTL3是由HAYETTE S等[19]于1998年首次报道,属于调节性糖蛋白TGF-β超家族。FSTL3能与TGF-β家族的某些成员配体结合,如激活素和人肌生长抑制素,通过类似的异聚体受体抑制其功能[20]。虽然其通常是一种分泌性糖蛋白,但核 FSTL3的表达被发现在某些细胞类型,其异位过表达会促进结直肠癌的增殖、侵袭行为[21]。KRT8P12属于KRT家族,能维持细胞的完整性,与细胞的有丝分裂、应激反应、凋亡和坏死等活性密切相关。KRT8P12是一种Ⅱ型KRT,其编码基因为12(12q)上皮细胞KRT。在细胞凋亡过程中,KRT8被磷酸化,细胞膜被破坏后会脱落[22]。目前已证实KRT是恶性肿瘤的血清标志物[23]。KRT8的过度表达可能与某些肿瘤有关,这已被广泛证实。研究表明,KRT8P12不仅在肝病、特发性肺纤维化等疾病患者中表达增加,在肿瘤患者中也有表达[24-25]。NEURL1B在整个成人大脑中表达,编码E3泛素连接酶,在Notch信号通路中起关键作用[26]。NEURL1B蛋白定位于细胞膜的细胞质侧,和其他Notch配体的E3泛素连接酶2相互作用,用于调节多种发育和稳态过程,如细胞分化、增殖、凋亡[27]。而在结肠癌中,NEURL1B的高甲基化与结肠癌的低生存率密切相关。因此,有研究提示NEURL1B作为一个抑癌基因参与了结肠癌的病理过程[28]。本研究通过前期生信技术结合这5个Notch信号通路相关基因,共同构建结肠腺癌预测算法和预后模型,能够较好提高结肠腺癌患者的诊断和预后预测,提高患者的生存率。

综上所述,本研究基于TCGA数据库鉴定了5个Notch通路相关基因作为反映结肠腺癌预后的潜在标志物。通过GEO数据库和HPA等在线网站,确保了预后模型及列线图在预测结肠腺癌患者的总生存期和肿瘤进展阶段方面的价值。今后需要进一步的临床试验来验证本研究的结果,以及Notch通路相关基因模型在结肠腺癌中的预后价值的机制也值得进一步的实验探究。

猜你喜欢
线图腺癌结肠
miRNA在肺腺癌中的作用及机制研究进展
新生儿先天性细小结肠症相关病因与影像表现
管状腺癌伴有黏液腺癌分化结直肠癌临床病理与免疫组织化学特征
云南地区多结节肺腺癌EGFR突变及其临床意义
十二指肠腺癌88例临床特征及相关预后因素
憩室炎,藏在肚子里的神秘疾病
一例猫巨结肠症的诊疗
一类图及其线图的Wiener指数