不同人种乳腺癌的差异表达基因及关键蛋白调控基因预后分析

2021-12-16 02:26梁宝宝黄晶晶毛国超周章剑王亚晨康华峰张淑群
国际检验医学杂志 2021年23期
关键词:人种通路乳腺癌

梁宝宝,黄晶晶,林 帅,毛国超,周章剑,王亚晨,康华峰,张淑群△

1.西安交通大学第二附属医院肿瘤科,陕西西安 710004; 2.西安交通大学第二附属医院普通外科,陕西西安 710004;3.西安交通大学第二附属医院皮肤科,陕西西安 710004

乳腺癌是全世界女性最常见的恶性肿瘤之一,也是癌症死亡的主要原因[1],其危险因素主要有年龄、家族病史、生殖因素、绝经后女性肥胖和激素等[2]。内源性和外源性雌激素暴露与乳腺癌风险增加有关。为了提供更有效的诊断和治疗策略,持续努力地了解与乳腺癌发病和发展进程有牵连的关键分子十分必要。目前,雌激素受体(ER)、孕激素受体(PR)、Ki67和人表皮生长因子受体2(HER2)是可以预示乳腺癌治疗的预后标志物。基于这些基因确定的肿瘤细胞表达,已对乳腺癌的5种分子亚型进行了分类[3],包括以下子类型:lumina A(ER+、PR+、HER-和Ki67 < 14%);luminal B的HER-2-(ER+、PR+、HER-和Ki67≥14%);luminal B的HER-2+(ER+、PR+、HER+、任何数值Ki67);HER-2型(ER-、PR-、HER+、任何数值Ki67);三阴性(ER-、PR-、HER-、CK5/6+和(或)egfr+)[4-6]。有研究表明,乳腺癌具有常见的体细胞拷贝数变化,这些变化因种族而异,并且与生存有关[7],种族差异存在于不同年龄女性[8]。黑种人妇女更有可能在较年轻时被确诊,并伴随更多的生物侵略性三阴性亚型[9]。与白种人妇女比较,年龄小于40岁的年轻黑种人妇女乳腺癌病死率更高。在治疗和预后的最新进展中,乳腺癌病死率的种族差距还在逐渐扩大[10]。种族的生存差异可能是因为在诊断时获得护理时间、肿瘤形态阶段、治疗的质量和合适的辅助治疗等方面有所不同[11-12]。有研究指出,即使在调整年龄、肿瘤大小、淋巴结状态、激素受体状态和组织学因素后,黑种人妇女在所有疾病阶段的病死率均较高[13]。因此,本文旨在通过高通量测序的转录组数据,研究不同人种的乳腺癌差异表达基因和其所在的功能通路,并对关键蛋白调控基因进行生存分析,为乳腺癌的临床治疗提供新的见解与方向。

1 资料与方法

1.1一般资料 本研究使用的不同人种乳腺癌数据来源于TCGA数据库(https://portal.gdc.cancer.gov/),分别下载了RNA-seq counts表达谱数据和临床样本数据。共有925例乳腺癌样本,包括745例白种人乳腺癌样本和180例黑种人或非裔美国人乳腺癌样本。

1.2方法

1.2.1转录组数据预处理 将原始测序数据首先通过STAR软件[14]建立索引,把reads比对到人类参考基因组hg38生存BAM文件。之后使用HTSeq软件[15]进行基因表达定量以得到RNA-seq counts数据。

1.2.2差异表达基因筛选 在TCGA数据集745例白种人乳腺癌样本和180例黑种人或非裔美国人乳腺癌样本中使用R软件的DESeq2程序包对RNA-seq counts数据进行归一化,之后再分析差异表达基因。使用t检验和差异倍数(FC)法筛选差异表达基因,同时采用多重检验校正方法Benjamini-Hochberg对P值进行校正并控制错误发现率(FDR)。本文定义符合FDR < 0.05且 | log2FC | ≥ 1的基因为差异表达基因。

1.2.3功能富集分析 为详细阐明不同人种差异表达基因所在的通路,本文应用R软件的clusterProfiler、org.Hs.eg.db等程序包进行基因本体论(GO)注释[16]和京都基因与基因组百科全书(KEGG)富集[17]分析。GO注释类型包括:(1)基因参与的生物学过程;(2)基因所处的细胞组分;(3)基因执行的分子功能。同上,采用多重检验校正方法对P值进行校正,设置满足P.adjust < 0.01的GO术语和KEGG通路具有统计学显著性。

1.2.4蛋白质相互作用(PPI)网络构建及模块挖掘 采用STRING数据库中的PPI信息进行网络构建[18],设置最低相互作用分数为0.7,并用Cytoscape软件进行可视化绘图。使用其中的分子复合物检测(MCODE)插件在构建PPI网络中进行模块挖掘。

1.2.5生存分析 本文标记关键蛋白调控基因中表达高于表达值中位数为高,低于表达值中位数为低,结合R语言的predict函数对整体关键蛋白调控基因进行风险打分,得到高风险组和低风险组。同时使用临床信息数据绘制生存曲线进行验证。

2 结 果

2.1不同人种乳腺癌差异表达基因分析结果 在白人乳腺癌组和黑种人或非裔美国人乳腺癌组基因表达谱数据中,使用t检验和FC法进行差异表达基因筛选,设置FDR < 0.05且 | log2FC | ≥ 1的阈值,共筛选出894个差异表达基因,其中上调基因875个,下调基因19个。火山图显示白种人乳腺癌组和黑种人或非裔美国人乳腺癌组差异表达基因的表达情况。横坐标log2表示以2为底白种人乳腺癌组基因表达值比黑种人或非裔美国人乳腺癌组基因表达值的对数值,差异越大其绝对值越高;纵坐标-log10FDR表示以10为底FDR的对数值的相反数,差异越明显其数值越高。图中右虚线右边的点代表差异表达的上调基因,虚线中间的点代表低于阈值(FDR < 0.05且 | log2FC |≥ 1)而被认为无差异的基因,左虚线左边的点表示差异表达下调的基因,差异表达情况见图1。最大的5个上调和5个下调基因见表1。

图1 不同人种乳腺癌差异表达基因火山图

表1 最大的5个上调和5个下调基因

2.2差异表达基因功能富集分析 对差异表达基因进行GO注释和KEGG富集分析,结果分别富集到1 857条GO生物学通路,259条GO细胞组分通路,364条GO分子功能通路,137条KEGG通路。符合阈值P.adjust<0.01的生物学术语12条,图2展示了最显著的5条,它们主要与角化作用、表皮细胞分化等有关;细胞组分术语6条,图3展示了最显著的5条,主要与角质化包膜、中间丝细胞骨架、角蛋白丝等有关;分子功能术语2条,见图4,主要与皮肤表皮的结构成分、葡萄糖醛酸转移酶活性有关。符合阈值P.adjust < 0.01的KEGG通路10条,图5展示了最显著的5条,它们主要与细胞色素P450代谢异种生物、戊糖和葡萄糖醛酸转换、化学致癌作用等有关。

2.3差异表达基因PPI网络构建及模块挖掘 在调节生物学进程中,蛋白与PPI起至关重要的作用。对差异表达基因进行PPI网络构建可展示这种互相作用关系,本文选择互相作用得分大于0.7分的结果,导入Cytoscape软件见图6。在MCODE插件中进行模块聚类,可分为3个主要模块,见表2。3个种子节点基因分别为CASP14、MYF6和ALB。

2.4关键蛋白调控基因生存分析 为验证关键的种子节点基因与生存率之间的关系,绘制了Kaplan-Meier曲线,见图7。结果表明,基因CASP14、MYF6和ALB表达的升高所对应的乳腺癌患者总体生存率明显升高,差异均有统计学意义(P<0.05)。

注:纵坐标表示富集到的不同GO生物学过程,横坐标表示注释到某条术语的基因数目。

注:纵坐标表示富集到的不同GO细胞组分,横坐标表示注释到某条术语的基因数目。

注:纵坐标表示富集到的不同GO分子功能,横坐标表示注释到某条术语的基因数目。

注:纵坐标表示富集到的不同KEGG通路,横坐标表示注释到某条通路的基因数目。

图6 差异表达基因的PPI网络图

表2 PPI网络中对应的模块信息

图7 Kaplan-Meier生存曲线

3 讨 论

乳腺癌是女性最常见的癌症,占所有女性癌症的30%[19]。许多患有原发肿瘤或局部晚期乳腺癌的患者接受新辅助化疗,此方法具有降低肿瘤分期的潜在好处,同时可减少手术范围,还可以早期评估全身治疗的疗效。有研究报道了包括乳腺癌在内的多种恶性肿瘤在预后方面的种族差异,与白种人比较,非白种人患者生存期较差,肿瘤中存在的种族差异已归因于许多因素,包括不同的肿瘤生物学、不积极的治疗及未能寻求医疗护理[20]。

本研究旨在利用TCGA数据库中不同人种乳腺癌的转录组表达谱数据和临床信息数据进行生物信息学分析。鉴定出894个差异表达基因,其中上调基因875个,下调基因19个。差异最大的上调基因有RNU1-11P、MAGEA4、FTHL17、SCARNA5、RNU1-88P,差异最大的下调基因有CSN2、LALBA、IAPP、GABRA1、XAGE3。通过GO注释和KEGG富集分析发现,GO主要的生物学通路有角化作用、表皮细胞分化等;GO主要的细胞组分通路有角质化包膜、中间丝细胞骨架、角蛋白丝等;GO主要的分子功能通路有皮肤表皮的结构成分、葡萄糖醛酸转移酶活性等。KEGG主要富集通路为细胞色素P450代谢异种生物、戊糖和葡萄糖醛酸转换、化学致癌作用等。另外,对差异表达基因进行PPI网络构建和模块分析,结果显示,3个主要模块被挖掘,其中CASP14、MYF6和ALB基因被鉴定为关键蛋白调控基因,并且与乳腺癌患者的生存有明显相关性。

有研究通过评估乳腺癌患者外周血中2个MAGE转录本(MAGE-A3、MAGE-A4)的临床可靠性和准确性发现,MAGE-A3的存在与淋巴结状态明显相关,MAGE-A4阳性与组织学分级明显相关,它们的反转录聚合酶链反应检测可能对预后有预测意义,有望成为乳腺癌的特异性肿瘤标志物[21]。对LALBA基因与缺氧相关特征的研究表明,此基因可以作为乳腺癌的潜在预后生物标志物[22]。差异表达基因,如GABRA4、GABRG1和GABRA1被确定为乳腺癌患者的潜在生物标志物[23]。根据公共数据库,高CASP14表达是与增殖、TNBC表型和癌干性相关的乳腺癌侵袭性标志物[24]。雌激素醌的清蛋白和血红蛋白胼合物是早期发现乳腺癌有前途的生物标志物[25]。

此外,本研究也存在不足之处。生物信息学方法进行研究的局限性表现在其部分结果需要进一步的功能实验验证。同时,由于乳腺癌发生机制的个体异质性和研究样本数量的有限性,本文仅收集到白种人和黑种人或非裔美国人乳腺癌的数据信息,因此,研究结果可能只适合于部分乳腺癌患者。

综上所述,本研究通过分析不同人种乳腺癌转录组层面数据,寻找相关差异表达基因,进行GO注释和KEGG富集分析,并对关键蛋白调控基因结合临床信息进行生存分析。研究结果可以为更深刻认识不同人种乳腺癌之间的分子机制提供新的见解。

猜你喜欢
人种通路乳腺癌
DJ-1调控Nrf2信号通路在支气管哮喘中的研究进展
AngⅡ激活P38MAPK信号通路在大鼠NSAID相关小肠损伤中的机制研究
绝经了,是否就离乳腺癌越来越远呢?
中医治疗乳腺癌的研究进展
小檗碱治疗非酒精性脂肪肝病相关通路的研究进展
Wnt/β-catenin信号转导通路在瘢痕疙瘩形成中的作用机制研究
姐妹三人种芝麻
一斤干饭,九两苹果——“十六连丰”后,陕西人种啥?吃啥?
我是黄种人
别逗了,乳腺癌可不分男女老少!