如何挖掘HPA数据库中研究数据并生成结果表达图

2022-02-23 10:24苏永发陈金图
实验与检验医学 2022年5期
关键词:页面图谱癌症

苏永发,陈金图

(福建医科大学附属泉州第一医院检验科,福建 泉州 362000)

蛋白质是人体一切器官、组织、细胞甚至亚细胞的重要组成成分。解决人类所有蛋白质在器官、组织、细胞和亚细胞水平上的空间分布,将进一步增加我们对人类健康和疾病生物学的理解。

随着众多公共数据库的建立和开放,越来越多的研究者可以从中直接获取大数据,方便研究者的后续工作。HPA数据库是一个用于癌症和正常基因表达谱分析和交互分析的web服务器,帮助临床科研爱好者更高效的利用公共数据资源。本文通过初步介绍HPA数据库公共网页各个模块的功能,让HPA网页式的交互界面使用更简单。

1 H P A简介与检索方法

1.1 简介 HPA数据库官方网站:www.proteinatlas.org利用各种组学技术致力于提供全部24000种人类蛋白质的组织和细胞分布信息。地图集被定义为提供全面信息的、可视化的地图或图表的集合。HPA采用该种方法,将人类蛋白质图谱分为六个独立的部分:组织图谱[1-2]显示了蛋白质在人体所有主要组织和器官中的分布,细胞图谱[3]显示了蛋白质在单细胞中的亚细胞定位,病理谱谱[4]显示了蛋白质水平对癌症患者生存的影响。HPA的第19个版本新增了三个模块:大脑图谱,血液图谱和代谢图谱(图1)。

图1 HPA首页界面及搜索结果界面

1.2 方法HPA提供两种不同的方式访问该页面。最直接的方法是直接搜索功能,可用于自由文本的搜索,比如通过基因名称、EnsEM BLe基因编号和抗体编号等进行查询。以CCNB1为例进行搜索(图1),我们获得3个搜索结果。HPA网站还可以提供更精确的搜索。Fields提供多项选择,我们可以按照需要目的性地进行搜索。比如通过蛋白质表达水平和蛋白质分类信息等进行高级查询。它不仅能够包含(或排除)定位于特定组织或细胞器的蛋白质,而且还可以通过结合多种标准(例如添加依赖于细胞周期的标准)来优化搜索亚细胞表达和RNA表达。搜索结果将会生成一个以基因为中心的结果列表并提供更全面的信息。通过在页面上相应的缩略图,我们可以在不同的子图谱上进行切换。

第二种方法是通过登录页面(图2A),其提供了蛋白质组的交互式知识章节。如图显示,组织图谱和细胞图谱的登入页面包含有许多可点击的图像和表格等,其包含对组织/细胞器的简要说明。登入页面的一个关键性就是交互性,每个图像、数字或图解都是可点击的,直接链接到相应基因列表、特定组织或细胞图像。

图2 组织图谱登陆界面及细胞登陆界面

2 图谱分类与数据下载

2.1 组织图谱 在主要的图集中我们可以查到相关的RNA-Seq数据,组织图谱上的每个基因页面都进行了全面的信息总结,包含相应的mRNA和蛋白质表达水平[1]。针对76种不同的细胞类型、对应于涵盖人体所有主要部位的44种未患病的人体组织类型进行了分析,数据以基于组织的蛋白质表达水平注释的形式呈现。GENERAL INFORMATION从Ensembl、蛋白质分类、预测定位和转录水平等方面对基因信息进行了总结(图3A)。Show more可提供更多基因信息,并且“i”符号都能够进行点击,它提供了简短的描述帮助用户进行理解。Human Protein Atlas Information针对HPA生成的RNA-Seq数据、GTEx数据库[5]和FANTOM5数据库[6]进行描述。根据表达模式,HPA将所有人类蛋白质编码基因进行分类,包括全部表达、组织富集、组织增强、混合表达和未检测到等[7]。此外,其他栏目还提供相关详细信息。根据共同的功能特征,将被分析的组织分为13个不同的组,每组都可以单击以访问包含的组织列表(图3B)。图3C显示了在不同组织中蛋白质的表达水平和mRNA的表达水平。单击组织名称或竖状条,可访问详细数据页面。

图3 以CCNB1基因为例的组织图谱页面布局

每个组织都有一个提供详细数据的独立页面,显示了染色图像以及被分析的细胞类型的表达水平。此处用睾丸作为示例,实验中使用的三种不同抗体各显示三张图像(图4A),该蛋白质的表达在在输精管的细胞亚群中高度表达,而在间质细胞中未检测到。所有图像均可被单击放大成高分辨率视图(图4B),允许在邻近细胞的背景下对蛋白质表达进行可视化观察。图4C提供RNA表达数据的详细信息。TESTIS-HPA RNA-seq提供了组织切片图像,包括样本中存在的细胞类型的估计分值。这使用户有可能评估和进一步了解基于不同细胞类型混合的RNA表达数据,并将信息与细胞类型特定的蛋白质表达谱进行比较。HUMAN SUBPROTEOMES提供一个亚蛋白质组登入页面,其概述了某些功能性基因组,如可用药蛋白质组和癌症蛋白质组等(图2A)。进入亚蛋白质组链接页面的网络图显示了不同组织中富集基因之间的分布。红色节点代表组织富集基因的数量,橙色节点代表组织富集的基因数量(图5)。 红色和橙色节点的大小与节点内显示的基因数量有关。每个节点都是可进行点击的,并产生所有富集基因的列表。

图4 以CCNB1为例的组织图谱详细数据

2.2 病理图谱 目前的《癌症图谱》包含20种最常见的蛋白质表达数据,与组织图谱相一样,在组织芯片基础上使用进行免疫组化染色。在《病理图谱》中,在癌症基因组图谱的全基因组表达数据的基础上,采用系统水平方法对人类基因组的临床结局进行分析。来自HPA的RNA序列数据和8000名个体癌症患者(包括20种主要癌症类型中的17种)被用于确定每种癌症类型中每个基因的RNA表达水平与总生存时间之间的相关性。有超过500000个Kaplan-Meier图无偏倚地对预后基因进行鉴定。预后基因被分为有利基因(RNA高表达与较长的生存时间成正相关)和不利基因(RNA高表达较长的生存时间成负相关)。与其他癌症相比,研究者可以识别某些癌症类型中升高的基因。研究还表明,个体肿瘤的基因表达模式存在较大差异,可能超过不同肿瘤类型间的差异。这些数据可用于为癌症患者生成个性化的基因组级代谢模型,以识别与肿瘤生长有关的关键基因。PROGNOSTIC SUMMARYi呈现了与癌症类型相关的预后基因Kaplan-Meier绘制(图6A)。RNA EXPRESSION OVERVIEW显示了17种癌症的mRNA表达水平(图6B)。PROTEIN EXPRESSIONi展示了免疫组化染色的癌症组织的图像,并总结了使用免疫组化分析的不同癌症类型的蛋白表达水平(图6C)。每个癌症组织都有一个详细的数据页,提供生存分析数据和每个患者的RNA表达水平(图6D),以及可点击的免疫组织化学癌症组织的图像(图6E)。以MKI67癌基因为例,如图显示该基因的高表达与肝、肾和胰腺癌的预后有关(图6F)。

图6 以CCNB1为例的病理图谱页面布局

2.3 细胞图谱 细胞图谱包含了12,003个蛋白质的空间分布,这些蛋白质被定位到32个亚细胞结构,进而对13个主要细胞器蛋白质组进行描述。IF图像的高分辨率允许检测单个细胞之间的信号变化。这些细胞间的变化可能是信号强度的变化,表明不同细胞中蛋白质的丰度不同,或者蛋白质的定位在不同的细胞中是不同的。HPA使用两种不同的方法来寻找蛋白质表达的细胞周期依赖性:首先,在U-2 OS FUCCI细胞系[8-9]中对选定的蛋白质进行染色。第二种方法是基于微管和核的特征解析细胞周期位置的创新计算模型。这些细胞按标准方法进行染色,抗体用绿色表示,红色表示微管,黄色表示内质网,蓝色表示细胞核。Human Protein Atlas INFORMATIONi一栏汇总了实验生成的数据,包括基于细胞系中TPM值的RNA表达类别(以与RNA组织类别相同的方式计算)和单细胞变异等。自定义数据是Cell Atlas新增的功能之一。它们链接到附属的研究项目,并提供正常细胞图谱数据之外的其他信息。

图7A/B显示了56种细胞系中CCNB1基因的mRNA表达情况,利用12种颜色来区别这些条状图区分不同器官来源。将鼠标悬停在一个细胞株上,将显示RNA-Seq的结果和关于该细胞株的详细信息。此处,高分辨率IF图像显示了不同细胞系中蛋白质的亚细胞定位。细胞图谱所使用的细胞系是根据RNA表达水平从22个系中选出的,但始终以U-2 OS作为参考。IF染色主要采用多聚甲醛固定步骤,利用激光共聚焦扫描显微镜上对细胞手动或自动成像[10]。图像包括四个通道(感兴趣的蛋白、细胞核标记、微管和ER),可以自由进行开关。此外,还有一些信号强度通道,它们显示细胞面积和细胞周期位置。研究者可以同时选择三个图像进行比较。可以通过单击复选框或拖放大图上的缩略图选中,所有图片也可以点击放大查看,如图7C所示。图8显示U-2 OS FUCCI细胞系中的IF染色情况。G1期的Cdt1(红色)和S与G2期的Geminin(绿色)(图8A)显示CCNB1表达在S/G2期(图8B)达到峰值。The organelle proteome的登录页是所有细胞器和亚结构蛋白质组的摘要,它们在细胞图谱中被描述。由于大多数蛋白质是在两个或两个以上的细胞器中被检测到的,因此有一个登陆页专门介绍这种多位点蛋白质组。

图7 以CCNB1基因为例的细胞图谱页面布局

图8 U-2 OS FUCCI细胞系中的IF染色情况

2.4 大脑图谱 《大脑图谱》通过整合三种哺乳动物物种(人、猪和小鼠)的数据探索了哺乳动物大脑中的蛋白质表达。图9A显示了CCNB1在人、猪和小鼠大脑不同区域的表达情况。我们可以从中获得一系列大脑样本的mRNA表达数据,这些样本来自10个大脑主要区域,包括垂体和视网膜等。该图集分析了来自整个小鼠大脑切片上的271个基因,从中我们可获得高分辨率的免疫荧光图像,探索蛋白质在小鼠大脑中的位置。我们可以通过点击组织名称或条状图访问样本数据。以NECAB1基因(神经元钙结合相关蛋白)为例,神经元亚群在整个大脑中显示出明显的体树突状免疫反应性。图像9B显示了老鼠大脑海马区神经元亚群的蛋白质位置。

图9 CCNB1在人、猪和小鼠大脑不同区域的表达情况

2.5 血液图谱 《血液图谱》提供了有关人类血液的细胞类型和蛋白质组的数据,提供了通过细胞分选分离出的18种单血细胞类型的转录组学数据,包括各种B细胞和T细胞等。血液蛋白质组由基于质谱的蛋白质组学和/或基于抗体的免疫分析确定的血液蛋白质浓度数据表示。此外,该图集还对人类分泌体进行了分类,并对人类预测的分泌蛋白进行了注释,试图确定哪些基因会积极地分泌到人类血液中,哪些基因在诸如消化系统等。图10A显示血细胞类型表达概述显示了来自三个不同来源的RNA-seq数据:HPA数据、Monaco scaled和Schmiedel scaled生成的数据,其颜色编码是基于血液细胞类型谱系。我们可以通过单击组织名称或栏访问详细的数据页。

图10 血液图谱的页面布局

2.6 代谢图谱 组织图谱的内容已扩展到代谢图谱,从而能够在人类代谢网络的背景下探索蛋白质功能和基因表达。代谢图谱可用于超过120种不同的代谢途径或子系统,每个图都描绘了蛋白质与所涉及的生化反应之间的联系。每个通路图都伴随着一个热图,详细描述了37种不同组织类型中所有参与代谢通路的蛋白质的mRNA水平。如图11A所示代谢通路图是由个别路径组织的,以方便代谢区域的可视化,更多的细节和完全互动的路径图可以在metabolicatlas.org上找到。图11B描述了代谢图谱中完整的通路详细列表和每个通路中涉及的酶的数量。

图11 代谢图谱的页面布局

2.7 数据下载 在搜索页面上列出的数据与当前搜索结果相对应的基因可以以不同的格式下载,包括XML、RDF和TAB。HPA还提供不同的可下载文件,包含来自组织的完整初级蛋白质数据,病理和细胞图谱等,以及组织和细胞中的RNA表达水平。所有可下载的文件都可以在www.proteinatlas.org/about/download网站找到。

3 讨论

目前,生命科学和医学已进入大数据驱动的革新时代。基因表达谱在生物学、医学等多个领域发挥着重要作用。网络上的分子生物学数据库种类多及涉及面广。HPA网站有着数以百万计的高分辨率图片,从该网站下载下来的数据可作为参考数据集进行大规模生物信息学分析。本文初步介绍了HPA网站的基本功能。随着更多感兴趣的研究者的使用,我们相信HPA的更多功能会被挖掘,以便于研究者的使用,从而减轻科研工作者压力,提高工作效率。

猜你喜欢
页面图谱癌症
刷新生活的页面
体检发现的结节,离癌症有多远?
答案
绘一张成长图谱
癌症“偏爱”那些人?
对癌症要恩威并施
不如拥抱癌症
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
杂草图谱