基于生物信息学和机器学习的心肌梗死后心室重构关键基因的筛选

2022-10-13 12:58李兴渊朱明军彭广操王建茹
郑州大学学报(医学版) 2022年5期
关键词:心室心肌细胞标志物

李兴渊,朱明军,彭广操,王建茹

河南中医药大学第一附属医院心内科 郑州 450000

心肌梗死(myocardial infarction,MI)作为冠心病中最危险的类型,是当前全球范围内人类死亡的主要原因之一[1-4]。随着溶栓、冠脉介入等治疗手段的应用和普及,MI的病死率显著下降,但MI后心力衰竭和不良心血管事件的风险明显增加;MI后心室重构(ventricular remodeling post-myocardial infarction,VRpMI)是导致上述风险的重要病理基础[1-6]。VRpMI是指MI后心肌细胞、非心肌细胞和细胞外基质发生改变,导致心室持续发生形状和功能上的病理性改变,表现为左心室扩大、左心室射血分数降低和(或)局部室壁活动异常等[4-5]。研究[2,6]显示,近半数的MI患者在MI后1 a内出现了心室重构且大多发生在前3个月。临床上,常通过生化指标、超声心动图、心脏磁共振成像等手段诊断和评估VRpMI,但仍缺乏更准确的评估方法或体系[4,7]。因此,积极探索VRpMI病理过程中潜在的生物标志物及病理机制,从而挖掘有效的诊断、防治心室重构的方法,具有重要意义。

随着高通量测序技术的发展和推广应用,许多疾病病理过程中的转录组等信息可被获取,这些海量的数据将极大地助力人类深入探索疾病的发生、发展和转归等的机制和规律[8-9]。加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)作为生物信息学中一种高频运用的方法,常用于分析样本性状与基因间的关联模式,在筛选疾病生物标志物或潜在防治靶点方面表现出了明显优势,现已在多种疾病中成功应用[10-11]。机器学习作为人工智能的一个子集,已被广泛应用于多个医学领域[12-13]。在心血管方面,机器学习已被应用于探索疾病生物标志物、发病机制、治疗靶点、预测生存结局及保健等方面[13-16]。本研究基于高通量测序数据,利用生物信息学和机器学习相结合的方法,筛选VRpMI病理过程中潜在的生物标志物及分子机制,以期为VRpMI的防治提供新的思路。

1 材料与方法

1.1 数据来源及预处理从GEO数据库(http://www.ncbi.nlm.nih.gov/geo/)中下载GSE132143数据集。提取数据集中NextSeq 500测序系统检测的健康人心室组织(正常组,12个样本)和VRpMI患者心室组织(VRpMI组,20个样本)的转录组信息。基于人类参考基因组GRCh38,提取“gene_biotype”为“protein_coding”的注释信息,将健康人和VRpMI患者心室组织转录组测序数据的基因ID转化为基因名,剔除基因数为0的基因后将数据保存为“human_MI.txt”文件,用于后续筛选差异表达基因(differentially expressed gene,DEG)。同时,下载GSE132143数据集中猪(n=9)MI后6个月左室梗死区和梗死远端区域组织的测序数据,并使用edgeR包中calcNormFactors函数的TMM算法对测序数据进行标准化校正,保存为“Swine_MI_6m.txt”文件。此外,下载基因芯片数据集GSE775及其平台文件GPL81-57556,该数据集为不同时间点正常小鼠(n=3)和VRpMI小鼠(n=3)左室心肌组织基因表达数据,分别提取MI后48 h和8周的数据,并取以2为底的对数,然后分别保存为“mouse_MI_48h.txt”和“mouse_MI_8w.txt”文件。

1.2 DEG的筛选利用edgeR包,以|log2[差异倍数(fold change,FC)]|>2和校正后的P<0.05为阈值,对“human_MI.txt”文件中的表达数据进行分析,筛选DEG,并利用ggplot2和pheatmap包进行可视化处理。

1.3 WGCNA将“human_MI.txt”文件中各样本中基因的基因数转换成TPM模式,并保存为“data_tpms.txt”文件,然后对样本进行聚类并剔除离群样本,形成数据矩阵。利用WGCNA包计算最佳软阈值并据此将数据矩阵依次转化为邻接矩阵、TOM矩阵,进而进行基因聚类;将模块基因数目设为30,通过动态剪切树法识别基因模块,对相似模块进行聚类和合并;计算基因模块与组别信息之间的相关系数及P值,选择与正常组样本正相关性最强的基因模块进行后续分析。

1.4 重要DEG的筛选以及疾病本体(disease ontology,DO)和基因功能富集分析利用venn包将1.2中筛选出的DEG和1.3中选出的与正常组样本正相关性最强的模块中的基因取交集,获取重要DEG。分别利用enrichDO函数、clusterProfiler包对重要DEG进行DO富集分析、GO分析和KEGG通路富集分析。

1.5 关键基因的筛选及验证分别利用基于glmnet包的最小绝对值收敛和选择算子(least absolute shrinkage and selection operator,LASSO)算法和基于e1071包的支持向量机-递归特征消除(support vector machine-recursive feature elimination,SVM-RFE)算法从重要DEG中筛选特征基因,然后利用venn包对两者取交集,获得关键基因。同时,基于正常组和VRpMI组心室关键基因的表达量,利用ROC曲线评价关键基因诊断VRpMI的效能;分别从“mouse_MI_48h.txt”、“mouse_MI_8w.txt”和“Swine_MI_6m.txt”文件中提取关键基因的表达量,进行组间比较,采用pROC包绘制关键基因的ROC曲线,并用这些外部数据来评价关键基因的诊断效能。

1.6 关键基因的基因集富集分析(gene set enrichment analysis,GSEA)以关键基因在“data_tpms.txt”文件中所有样本表达量的中位数为依据,将文件中的关键基因分为高表达组和低表达组。利用GSEA 4.1.0软件,选择c2.cp.kegg.v7.4.symbols作为参考基因集进行GSEA。以标准化富集得分的绝对数>1、名义P值<0.05和错误发现率(false discovery rate,FDR)<0.25为阈值筛选阳性基因集。

2 结果

2.1 DEG的筛选结果差异分析共筛选出716个DEG,其中上调585个,下调131个(图1)。

上:火山图(蓝点为下调的DEG,灰点为表达无差异的基因,红点为上调的DEG);下:前20个上调、下调DEG的热图

2.2 WGCNA结果从1~20中选取软阈值开展网络拓扑分析,当软阈值为7时能够使邻接函数较好满足无尺度条件且R2>0.8(图2A、B)。随后,利用动态剪切树法得到6个基因模块(图2C)。图2D展示了6个基因模块与组别信息之间的相关系数及P值,其中棕色模块与组别信息的相关性最高(|r|=0.85,P<0.001),共包括7 288个基因(图2D、E)。因此,选择棕色模块中的基因开展后续研究。

A:软阈值参数与尺度独立性分析;B:软阈值参数与平均连接性分析;C:基因聚类树与基因模块;D:临床性状与基因模块的相关性热图;E:棕色模块与正常组性状的散点图

2.3 重要DEG的筛选以及DO和基因功能富集分析如图3A所示,棕色模块中的7 288个基因与716个DEG取交集后获得355个重要DEG。DO富集分析结果(图3B)显示,依据BH法校正后的P<0.05,共富集到了24种疾病(图中展示20种),包括动脉粥样硬化、动脉粥样硬化性心血管疾病、牙周病、肺疾病、脑梗死等。GO富集分析结果(图3C)显示,依据P<0.05确定了492个GO条目。生物学过程条目370条,主要涉及药物分解代谢过程、免疫反应、炎症反应等;细胞组分条目32条,主要涉及含细胞外基质的胶原蛋白、胞质囊泡腔、运输囊泡等。分子功能条目90条,主要涉及细胞外基质结构成分、晚期糖基化终产物(receptor for advanced glycation end,RAGE)受体结合、血红素结合等。KEGG富集分析结果(图3D)显示,依据P<0.05共映射出15条信号通路,包括蛋白质消化吸收,鞘脂代谢,Apelin、PI3K-Akt、松弛素和Ras信号通路等。

2.4 关键基因的筛选及验证如图4A、B、C所示,采用LASSO算法从355个重要DEG中筛选出了10个特征基因,采用SVM-RFE算法则筛选出了6个特征基因,两者取交集后鉴定出神经元正五聚蛋白2(neuronal pentraxin 2,NPTX2)为关键基因。其log2FC=-2.442,FDR<0.001,提示其在VRpMI中低表达。

A:LASSO算法筛选的特征基因;B:SVM-RFE算法筛选的特征基因;C:两种机器学习算法筛选关键基因的韦恩图

NPTX2在小鼠MI后48 h和8周时表达水平较正常小鼠心肌组织低(图5A、B);猪MI后心肌梗死区域NPTX2的表达水平较心肌远端区域低(图5C)。基于健康人和VRpMI患者心室组织转录组测序数据(内部数据)绘制诊断VRpMI的ROC曲线,AUC(95%CI)为0.996(0.984~1.000),表明NPTX2具有良好的诊断效能(图6A)。利用小鼠、猪MI模型数据分别对NPTX2的诊断效能进行外部验证,结果表明NPTX2在两个数据集的AUC(95%CI)值分别达到了0.972(0.895~1.000)和0.963(0.882~1.000),诊断效能较高(图6B、C)。

A、B:分别为正常小鼠和MI小鼠48 h和8周心肌组织NPTX2的表达;C:猪MI模型心肌远端区域和梗死区域NPTX2的表达

A、B、C:基于人、小鼠、猪的数据所得的NPTX2的ROC曲线

2.5 关键基因的GSEANPTX2在低表达组中未富集到阳性基因集;在高表达组中富集到了19个阳性基因集,主要涉及心肌收缩、氨基酸代谢、鞘脂类代谢、细胞凋亡、谷胱甘肽代谢、烟酸盐和烟酰胺代谢等(图7)。

3 讨论

VRpMI可导致心功能恶化、心力衰竭、恶性心律失常,甚至心源性死亡,是影响MI后心脏事件发生率和远期预后的主要因素。现阶段的研究[7,17]发现心肌肥大、心肌纤维化、炎症免疫反应、能量代谢紊乱、细胞凋亡、自噬和焦亡、神经内分泌系统的激活等介导了VRpMI,但其详细的作用机制仍不清楚。因此,积极阐释VRpMI的病理机制,对于预防、延缓甚至逆转心室重构至关重要。

本研究共鉴定出355个重要DEG,它们可通过调控炎症免疫反应、细胞外基质结构成分、Apelin、PI3K-Akt、松弛素等通路和生物学功能介导VRpMI的病理过程。研究[18]显示,Apelin具有抗氧化应激、抗肾素血管紧张素醛固酮系统、正性肌力等作用,参与了心肌肥厚、心力衰竭、高血压、动脉粥样硬化、VRpMI等疾病的病理过程,Apelin介导的药物治疗可能会在VRpMI患者中发挥重要作用。PI3k-Akt信号通路是多个小分子药物治疗VRpMI的靶点,其参与VRpMI的主要病理机制与抗氧化应激、调控自噬水平、减少心肌细胞凋亡和炎症反应等有关[19-21]。此外,松弛素可通过减少心肌细胞凋亡和心肌纤维化胶原沉积来延缓VRpMI[22]。通过文献复习,我们不难发现这些重要DEG介导VRpMI的分子机制与既往文献报道的结果存在一些吻合,这在一定程度上佐证了本研究结果的科学性和准确性。

VRpMI可分为早期和晚期重构,早期重构常在MI后72 h内发生,以梗死面积扩大和心室腔扩张、心肌细胞坏死及心肌顿抑等为特点;晚期重构通常在数周内发生,可以延续数月甚至1 a,以心肌细胞肥大、凋亡和弥漫性纤维化等为主要表现[4]。目前,VRpMI的诊断尚无统一明确的标准,一些生物标志物如N末端B型利钠肽前体、半乳糖凝集素-3、可溶性ST2等在预测VRpMI方面表现出一定的应用价值[4,23]。本研究利用 LASSO、SVM-RFE算法从355个重要DEG中鉴定出了1个VRpMI的潜在生物标志物NPTX2,并发现其在早期重构和晚期重构阶段均处于低表达水平。同时,本研究绘制了依据内部数据和外部数据的NPTX2诊断VRpMI的ROC曲线,发现AUC值均大于0.9,说明NPTX2在诊断VRpMI方面具有良好的效能。

NPTX2又称调节神经元活动的正五聚蛋白,为正五聚蛋白的一个超家族成员,是一种分泌性糖蛋白。Hsu等[24]于1995年首次报道了NPTX2基因,发现其位于人染色体7q21.3-q22.1,长度为11 000 bp,含有4个内含子。NPTX2在人体分布广泛,涉及脑、心、肝、胰、睾丸等多种器官,但起初其功能研究多集中于神经系统[25]。近年来,随着研究的不断深入,发现NPTX2与焦虑[26]、遗传额颞叶痴呆[27]、血管性痴呆[28]、阿尔茨海默病[29-30]、癌症[31]等多种疾病密切相关,甚至可以作为它们的生物标志物。本研究创新性地确证了NPTX2在MI组织低表达,可能是VRpMI潜在的生物标志物。为了进一步阐释NPTX2介导VRpMI病理过程可能的作用机制,本研究对NPTX2开展了单基因GSEA。结果提示,NPTX2可能通过调控心肌收缩、氨基酸代谢、鞘脂类代谢、细胞凋亡、谷胱甘肽代谢、烟酸盐和烟酰胺代谢等信号通路介导VRpMI的病理过程。心肌细胞减少为VRpMI的主要原因之一,而心肌细胞凋亡是导致心肌细胞数量减少的重要原因。研究[32-33]显示,NPTX2低表达可促进骨肉瘤细胞和胃癌细胞的凋亡;而其过表达可诱导神经胶质瘤细胞和胰腺癌细胞的凋亡[34-35]。以上结果提示,NPTX2可调控细胞凋亡,并表现出了双重性的特点。现阶段,除了细胞凋亡外,我们尚未见NPTX2调控其他信号通路的相关报道。

本研究尚存在一定的局限性,主要体现在以下方面:①目前,在GEO数据库中满足研究疾病为VRpMI、检测组织为人心肌组织的样本偏少,且数据集单一,最终导致本研究纳入分析的样本量有限。②VRpMI与性别、年龄、糖尿病、高血压、血脂异常、心肌梗死部位、是否为多支血管病变以及是否合并瓣膜病等因素密切相关,但由于GSE132143数据集中样本临床信息不完善,导致在WGCNA时无法分析基因模块与以上临床信息的关联性,限制了后续有针对性的研究。③基于有限的样本量,为了保证结果的可靠性和精准性,本研究分别采用了WGCNA、LASSO和SVM-RFE算法来鉴定关键基因;同时,利用小鼠和猪的数据对挖掘出的关键基因在VRpMI病理过程中的表达水平和诊断效能进行了外部验证。即使如此,本研究结果仍需在后续临床实践过程中进行佐证。

总之,本研究利用不同的机器学习算法和生物信息学相结合的方法,发现NPTX2在VRpMI病理过程中处于低表达水平,确定了其可能为VRpMI的潜在生物标志物。本研究结果为后续进一步深入探索VRpMI的病理机制、开发新型诊断生物标志物及VRpMI的治疗提供了新的思路和切入点。

猜你喜欢
心室心肌细胞标志物
炎性及心肌纤维化相关标志物在心力衰竭中的研究进展
多项肿瘤标志物联合检测在健康体检中的应用价值
Lorenz散点图结合逆向技术快速识别起搏器基本功能
起搏器融合波排除的心电图表现
基于TCGA数据库分析、筛选并验证前列腺癌诊断或预后标志物
微小核糖核酸-125b-5p抑制Caspase 2蛋白酶活性缓解脂多糖诱导的心肌细胞凋亡和氧化应激的研究
FGF21作为运动因子在有氧运动抑制心梗心肌细胞凋亡中的作用及其机制探讨
人造鳐鱼
三七二醇对缺氧/复氧心肌细胞的保护机制及HSP70表达影响的研究△
冠状动脉疾病的生物学标志物