通过生物信息学分析预测肺鳞癌病人预后的免疫信号

2021-11-23 08:29樊雨乔林玫徐文华
青岛大学学报(医学版) 2021年5期
关键词:生存率因子病人

樊雨乔,林玫,徐文华

(1 青岛大学医学部医学检验学系,山东青岛 266071; 2 临沂市第三人民医院检验科)

肺鳞癌(LUSC)是肺癌常见的亚型[1-2],病人病死率高[3]。目前,LUSC治疗策略主要包括手术、化疗、靶向治疗和免疫治疗。早期病人多采用手术切除治疗,晚期则以化疗为主[4],但后者预后不佳[5-6]。致癌基因的发现对肺癌的治疗策略选择产生了重大的影响,但LUSC 病人很少发生表皮生长因子受体(EGFR)基因突变和间变性淋巴瘤激酶(ALK)易位,这限制了其靶向分子治疗的选择[7-10]。目前,免疫治疗成为提高LUSC病人生存率的重要方法[11],阻断免疫检查点通路是抗肿瘤治疗的热点[12-14]。然而,一些病人对免疫检查点抑制剂不敏感[15]。有研究结果表明,免疫相关基因(IRGs)不仅与病人的预后有关,还通过影响肿瘤免疫微环境影响病人对免疫治疗的敏感性[16]。本研究旨在开发一种基于多个IRGs的预后信号,评估LUSC 病人的预后及对免疫治疗的敏感性。

1 资料和方法

1.1 数据采集

数据资源下载于TCGA 数据库(http://portal.gdc.cancer.gov/)。①登录TCGA 数据下载官网(https://portal.gdc.cancer.gov/),点击Repository,进入数据存储地;②点击Case,选择肿瘤原发部位、项目、疾病类型;③点击Files,选择基因表达的测序数据HTSeq-FPKM 进行下载(https://gdchub.s3.us-east-1.amazonaws.com/latest/TCGALUSC.htseq_fpkm.tsv.gz)。其中包括所有病人的基因表达谱和临床统计数据,总共获得了502 例LUSC组织和49例正常肺组织。临床信息包括病人的年龄、性别、TNM 分期、T 分期、N 分期、M 分期、生存时间和生存状态。从Imm Port数据库(http://www.immport.org)下载了2 483个IRGs[17]。IRGs根据功能不同,分为细胞因子、肿瘤坏死因子家族受体、B细胞受体信号通路和白细胞介素等17个免疫类别。从Animal TFDB(http://bioinfo.life.hust.edu.cn/Animal TFDB/)下载了1 665个转录因子。

1.2 差异表达免疫相关基因(DEIRGs)的鉴定

1.3 转录因子调控网络

构建转录因子调控的网络,通过R 软件分析LUSC和正常肺组织间差异表达的转录因子,并构建火山图和热图;然后建立转录因子调控网络,探讨其与DEIRGs的关联性。

1.4 模型建立与验证

从TCGA 数据库中选取有完善预后信息的LUSC病人215例,随机分为训练集(n=108)和测试集(n=107)。在训练集中建立风险回归模型,并在测试集中进行验证。通过单变量Cox回归分析,确定与预后相关的风险基因。通过Lasso回归分析,去除彼此之间高度相关的风险基因;通过多变量Cox回归分析建立与预后相关的风险回归模型。

1.5 生存分析

根据预后模型计算每个LUSC 病人风险评分。以中位风险评分作为临界值,将LUSC 病人分为低风险组和高风险组,用R 软件中的survival包绘制Kaplan-Meier生存曲线,散点图示病人随访时间。

1.6 肿瘤免疫微环境分析

使用肿瘤免疫微环境估计资源(TIMER,http://cistrome.dfci.harvard.edu/TIMER/)算法[18],分析预后模型的风险评分与肿瘤浸润免疫细胞之间的相关性。

1.7 统计分析

应用R 软件包limma进行差异表达基因分析,采用Benjamini-Hochberg法进行校正,以|log2 fold change(FC)|>1和FDR<0.05作为筛选差异基因的标准。应用R 软件中survival包分析受试者工作特征(ROC)曲线,ROC 曲线下面积(AUC)>0.60被认为是一个可接受的预测模型,而AUC>0.70被认为具有显著的预测价值[19-20]。比较高风险组和低风险组的临床参数,连续变量比较采用t检验,分类变量比较采用χ2检验、对数秩检验和Cox比例风险回归模型。以P<0.05为差异有显著性。

2 结 果

2.1 DEIRGs的鉴定

根据TCGA 数据库,共鉴定出8 478个差异表达的基因。其中,与正常肺组织相比较,LUSC组织中有5 893 个基因表达上调,2 585 个基因表达下调。从获得的差异表达基因中进一步筛选出593个DEIRGs,在这17 个当中,307 个DEIRGs表达上调,286个DEIRGs表达下调。

2.2 转录因子调控网络

共发现了70种在正常肺组织和LUSC 组织之间显著差异表达的转录因子,其中17个与DEIRGs异常表达显著相关(r>0.4,P<0.05)。在这17个当中,3个转录因子负调控IRGs的表达,14个转录因子正调控IRGs的表达。

2.3 与预后相关的DEIRGs的鉴别

单变量Cox回归分析表明,共有24个DEIRGs与LUSC病人的预后显著相关(P<0.01)(图1)。

图1 24个DEIRGs生存分析的森林图

2.4 风险模型中与预后相关的DEIRGs的鉴定

基于预后指标对LUSC 病人总体生存率的影响,进一步筛选预后指标,构建基于训练集数据的Cox回归风险模型。Lasso回归分析获得了14 个候选基因(图2),经多变量Cox比例风险回归分析最终获得了10个高危基因,分别为PLAU、JUN、RNASE7、FOS、IGGD3-22、IGKV1-6、SEMA4C、APLN、FGFR4和TRAV39。这10 个基因均与LUSC病人预后不良有关。

综上可见,小型水库安全管理应落实专业人员管理,发现问题及时处理,要加强小型水库的抗洪能力及应急保障能力,重视巡视检查与应急能力建设,保障工程安全。

图2 基于训练集的预后相关DEIRGs的Lasso回归分析

2.5 基于训练集的预后风险模型

为了探讨风险基因在评估LUSC病人预后中的意义,使用以下公式计算每个病人的风险评分:风险评分=(0.002 071 216×PLAU的表达量)+(0.005 001 859×JUN的表达量)+(0.011 714 662×RNASE7的表达量)+(0.001 904 47×FOS的表达量)+(0.008 147 631×IGGD3-22的表达量)+(0.000 379 557×IGKV1-6的表达量)+(0.013 048 762×SEMA4C的表达量)+(0.061 256 145×APLN的表达量)+(0.059 219 257×FGFR4的表达量)+(0.397 970 139×TRAV39的表达量)。以中位风险评分作为临界值,将训练集中的病人分为高风险组和低风险组。Kaplan-Meier曲线分析显示,高风险组和低风险组在训练集中的存活时间差异有显著性(χ2=11.4,P<0.05)(图3A);时间相关的ROC曲线分析结果显示,建立的预后模型可靠,ROC 曲线AUC 在3 年和5 年分别为0.721 和0.715(图3B、C),低风险评分病人的生存状况优于高风险评分病人(图3D、E)。热图分析结果显示,与低风险组相比,高风险组10种风险基因的表达水平高于低风险组(图3F)。

图3 基于训练集的10个基因风险得分模型的预后分析

2.6 预后模型性能的验证

分别在测试集和整个TCGA 集中验证建立的预后风险模型的预测性能。根据每个病人的风险评分,将测试集和整个TCGA 集的病人分别按照风险评分中位数分为高风险组和低风险组,进一步绘制Kaplan-Meier曲线和时间相关的ROC 曲线,比较高风险组和低风险组的3年生存率和5年生存率。结果表明,无论是在测试集还是整个TCGA 集中,低风险组的生存率都高于高风险组(图4A、B)。在测试集和整个TCGA 集中,3年生存率AUC 分别为0.631和0.679(图4C、D),5年生存率AUC分别为0.634和0.692(图4E、F)。与低风险组相比,高风险组病人生存状况更差,风险基因表达水平更高。表明建立的预后风险模型具有良好的预测性能。

图4 测试集和整个TCGA集的生存分析

2.7 风险评分在整个TCGA 集中的独立预后价值

单变量Cox 回归分析显示,病理分期(P=0.005)、T 分期(P=0.005)和风险评分(P<0.001)与LUSC 病人的生存结果显著相关。多变量Cox回归分析结果表明,风险评分可作为预测LUSC 病人预后的独立危险因素(P<0.001)。时间相关的ROC曲线分析显示,3年时病理分期、T 分期和风险评分的AUC分别为0.587、0.597和0.691,5年时分别为0.536、0.526和0.694。

2.8 预后模型的临床有效性

基于整个TCGA 集分析模型变量(风险基因和风险评分)和临床变量(年龄、性别、病理分期和TNM 分期)之间的关系显示,随着PLAU表达的增加,LUSC的T 分期进展迅速(P=0.021);不同年龄的病人某些危险基因的表达也不同,APLN(P=0.038)、JUN(P=0.019)和PLAU(P=0.008)在65岁以上LUSC 病人中的表达水平明显高于年轻病人;FGFR4在男性LUSC 病人中的表达水平显著高于女性病人(P=0.020)。风险评分与B 细胞、CD8+T 细胞、树突状细胞、巨噬细胞和中性粒细胞等浸润程度呈正相关(r=0.106~0.171,P<0.05)。表明风险评分能够评估LUSC 病人肿瘤免疫微环境的状态。

3 讨 论

肺癌是一种病死率较高的恶性肿瘤,虽然近年来在诊疗方面取得了很大进展,但生存率仍然不容乐观。免疫治疗的兴起及临床应用为肺癌的诊疗手段提供了新的思路。越来越多的证据表明,肿瘤免疫微环境可以影响肿瘤的恶性表型[21-23]。在多种恶性肿瘤中,免疫浸润与临床结果密切相关[24-25],尤其是在肺癌中[26-27]。本文研究基于TCGA 数据库,确定了与预后相关的DEIRGs,并构建了一个预后风险模型来评估LUSC 病人的生存结果及肿瘤免疫微环境的状态。

本研究分析了LUSC 组织和正常肺组织之间DEIRGs,并构建了转录因子调控网络,得到17 个转录因子与IRGs异常表达相关。表明肿瘤转录因子可能通过调节IRGs的表达来影响LUSC病人的预后。本研究还探讨了DEIRGs与LUSC 病人预后之间的相关性,并评估了与LUSC 预后相关的DEIRGs在预测病人预后中的效率。通过Lasso回归分析,最终获得10个风险基因,纳入预后风险模型,并在整个TCGA 数据集中进行验证。本文研究结果表明,本文建立的预后模型能够有效区分不同风险的病人,风险评分可作为预测LUSC 病人预后的独立因素,且优于其他临床参数。因此,风险模型可用于筛查高危病人,以便通过早期治疗改善预后。本文研究评估了危险因素和一些临床变量之间的关系,结果显示,一些风险基因的表达与LUSC 进程呈正相关,表明所构建的风险模型能够有效预测LUSC进程。

免疫疗法在肺癌的治疗中显示出不同的临床效果,这部分取决于肿瘤浸润淋巴细胞的数量和特征[28-29]。有研究认为,肺恶性肿瘤中浸润的免疫细胞可能对病人的免疫治疗反应和预后产生重要影响[22]。本文分析了风险评分与肿瘤浸润免疫细胞之间的关系,结果表明,病人风险评分越高,免疫细胞浸润程度越高,说明风险模型在评估LUSC 生存结果中可信度较高。

基于IRGs的风险模型被广泛用于评估多种恶性肿瘤病人的预后。本文研究具有以下优势:①分析了IRGs在LUSC 中的表达模式;②进行Lasso回归,删除彼此高度相关的基因,增加了结果的可信度;③所建立的模型不仅可用于预测LUSC 病人的预后,还可用于评估病人肿瘤免疫微环境的状态,从而辅助制定个性化的治疗方案。

综上所述,本文通过生物信息学分析,得到了基于IRGs的预后信号,该信号可用于评估LUSC 病人的预后和肿瘤免疫微环境的状态,从而帮助制定个性化的治疗方案,提高病人的生存率。

猜你喜欢
生存率因子病人
我刊2021年影响因子年报
谁是病人
肿瘤复发,为何5 年是一个坎
一些关于无穷多个素因子的问题
“五年生存率”不等于只能活五年
影响胃癌术后5 年生存率的因素分析
日本首次公布本国居民癌症三年生存率
山药被称“长寿因子”
病人膏育
还能活多久