空间表达变异基因识别方法及其在肿瘤异质性研究中的应用进展

2024-01-30 16:37关双刘溪王博王念刘骏王忠
中国现代医生 2024年2期

关双 刘溪 王博 王念 刘骏 王忠

[摘要] 空间表达变异基因的识别是阐明空间转录组学的基础。空间表达变异基因的分析需应用空间转录组数据相关公共存储库和计算技术。本文综述空间转录组学应用于空间表达变异基因识别的计算方法,阐述空间表达变异基因识别在肿瘤异质性研究中的应用进展,以进一步理解驱动肿瘤异质性发生发展的分子机制。

[关键词] 空间转录组学;空间表达变异基因;肿瘤异质性

[中图分类号] R730    [文献标识码] A     [DOI] 10.3969/j.issn.1673-9701.2024.02.027

人体组织由各种类型的细胞组成,每种类型的细胞均执行特定的功能,而细胞行为受组织内周围环境的影响。了解组织中不同细胞的相对位置对于理解细胞类型和疾病机制至关重要[1]。肿瘤的空间异质性不仅由基因型的多样性驱动,还由肿瘤细胞与构成局部肿瘤微环境的免疫和基质细胞之间的相互作用产生,从而导致肿瘤的不同区域具有独特表型,因此了解肿瘤的空间异质性在临床上有重要意义[2-3]。

空间转录组(spatial transcriptome,ST)技术在对转录组进行高通量测序的同时,可保留相关组织环境和细胞的空间信息,弥补单细胞测序技术获取空间信息的不足。生成ST数据的常用方法分为两类,一类方法是基于图像的原位转录学,称为单分子荧光原位杂交;另一类方法是基于空间条码的下一代测序技术,包括空间转录组学、Slide-Seq、Slide-Seq2等[4-6]。目前,ST技术主要应用于细胞类型识别、细胞-细胞相互作用关系计算、基于表达信息和空间坐标的空间模式识别等方面。其中,ST数据分析的主要贡献之一是表征其空间组织方式[7]。近年来,研究者在阐明基因表达的空间变异方面付出诸多努力[8]。根据数据分析流程,可将上述分析方法分为两类:第一类是不考虑空间域识别空间表达变异基因;第二类是利用空间聚类算法识别出的空间域检测空间表达变异基因[9]。本文重点阐述用于ST数据分析的计算方法,特别强调如何将空间位置信息与基因表达联合建模应用于空间表达变异基因的识别。

1  空间表达变异基因的鉴定

1.1  Trendsceek

Trendsceek利用标记点过程理论,以空间位置为点、表达水平为标记,应用标记点过程对每个基因的空间表达趋势重要性进行排序和评估[10]。该方法通过将点作为其距离半径函数進行成对分析,测试点的空间分布及其相关标记之间的相关性。用于依赖性评估的汇总统计量包括条件均值、条件方差、Stoyan分数相关性和分数-变异函数。

1.2  SpatialDE

SpatialDE利用高斯过程回归将基因表达变化分解为空间成分和非空间成分[11]。空间差异项通过样本的成对距离将基因表达协方差参数化,噪声项模拟非空间可变性。由上述分量解释的方差比率量化空间方差的分数。通过将上述完整模型与无空间方差分量的模型进行比较,可对空间表达变异基因进行识别。

1.3  Spark

与SpatialDE相似,Spark是一种生成模型,其具有10种空间核函数,包括5个具有不同周期性参数的周期核函数及5个具有不同平滑度参数的高斯核函数,可检测空间表达变异基因[12]。该方法利用具有不同空间核的广义线性混合模型对ST测序的原始数据进行建模,通过惩罚拟似然、限制性最大似然估计法对该模型进行求解,采用一种新的统计量整合规则计算统计P值。与SpatialDE不同的是,Spark可直接计算数据,并依据适当的统计框架获得校准P值,但其也导致识别空间表达变异基因的准确性降低。

1.4  Spark-X

Spark-X建立在稳定的协方差测试框架基础上,并将其扩展为结合各种空间核,用于对来自大型空间转录研究的稀疏计数数据进行非参数空间建模[13]。对于给定的基因,Spark-X首先构建基因表达的协方差矩阵(Y)和空间坐标的协方差矩阵(S),然后计算测试统计量(T)。测试统计量T实际上是所有位置对上的两个相似性测量之间的乘积总和。当Y和S彼此独立时,位置对之间关于基因表达的相似性度量将不会与位置对之间关于距离的相似性度量相关。因此,T值较小。

1.5  GPCounts

GPCounts建模具有负二项可能性的时间或空间计数数据[14]。使用具有对数连接函数的GP模拟计数数据分布在时间或空间平均值的变化。对于空间转录数据,GPCounts遵循两个测试程序,使用根据χ2分布估计的P值,还可通过置换测试估计P值。GPcounts可识别执行伪时间推断,识别分支基因并发现时间轨迹[15]。与大多数软件包相比,GPcounts的应用范围更广。但该方法在应用于大型数据集时,其计算效率并不明确。

2  空间域的识别

识别空间特征是空间转录组学分析中的步骤之一。为识别组织结构,现有算法对转录组上相似位点或细胞进行分组,以揭示基因表达的空间模式。较新方法可专职利用空间数据识别组织特征,如组织域。在空间表达变异基因检测中考虑空间域可确保检测到的基因在空间域中表现为丰富的表达模式,这些基因可作为细胞空间位置的标志物[16-17]。

2.1  SpaGCN

SpaGCN是一种利用图卷积网络分析ST数据,划分不同组织区域并寻找区域富集基因的机器学习算法[18]。首先,建图表示考虑空间位置和组织学信息所有点的关系;其次,利用图卷积层聚合来自相邻点基因的表达信息;第三,使用无监督迭代聚类算法对点进行聚类。每个集群视为一个空间域,SpaGCN通过差异分析识别区域中富集的空间表达变异基因。当单个基因无法标记一个区域的表达模式时,SpaGCN会构建一个由多个基因组合形成的元基因,从而代表该区域的表达模式。SpaGCN的重点是结合现有组织学确定空间域,并确定在空间域之间存在的差异表达基因。在计算空间表达变异基因时,SpaGCN未将细胞类型信息和组织解剖结构纳入计算中。

2.2  SOMDE

SOMDE使用自组织映射,在保持原始空间信息的前提下,根据输入数据的密度和拓扑结构构造一个节点数较少的压缩映射,应用高斯过程检测空间表达变异基因[19]。SOMDE的核心思想是构造一种精简的空间转录数据整合策略,既可保留空间表达变异基因的信息,又可降低下游的计算复杂度。该方法即使在非常大的数据集中也能有效识别空间表达变异基因,且运行速度快。

2.3  MULTILAYER

MULTILAYER将每个基因的差异表达水平与整个组织中的平均表达水平进行比较,应用层次聚类识别基因表达模式[20]。这些模式通过图中节点进行表示,其中边缘由基因模式的相似性加权;另有一些示例可利用Markov随机字段在执行空间聚类时合并空间信息。该方法对空间分辨率低的ST数据较为敏感。

2.4  SPADE

SPADE使用成像数据和ST数据作为输入,通过卷积神经网络提取每个点周围的形态特征,并将其与基因表达数据相结合,以识别与空间和形态异质性相关的关键基因[21]。首先,建立线性模型,将每个空间转录数据集中所有基因的比例基因表达与图像潜在特征PC进行拟合;其次,根据回归系数或应用Benjamini-Hochberg方法校正P值,对基于PC值的线性回归分析相关基因并排序,收集在PC机中错误发现率<0.05、解释512D图像特征方差>2%的基因列表,从而选择SPADE基因;第三,基于上述关键基因进行功能分析,以进一步阐明负责不同形态特征的生物过程。

2.5  Sepal

Sepal模拟基因表达在空间域中的扩散,并应用Fick第二定律模拟表达扩散,测量收敛时间[22]。Sepal假设具有空间模式的基因表现为较低程度的随机性扩散且具有较高程度的结构。因此,与在不同空间位置具有统一模式的基因相比,遵循结构化模式的转录本需要更多的迭代才能使梯度算法收敛,且系统的长收敛时间表明存在结构化的空间模式。Sepal可检测不规则空间模式的基因。

2.6  ScGCO

ScGCO基于图切割和高斯混合模型识别空间基因[23]。首先,对细胞的空间坐标进行Delaunay三角剖分以生成细胞位置稀疏图形;其次,通过图切割算法分析该图,以识别最小化基础马尔可夫随机场的能量切割,其中得到的子图对应于具有相似表达值的细胞集群;第三,通过Voronoi镶嵌可视化识别空间模式,且可使用齐次空间泊松过程评估所识别空间基因的统计学意义。该方法会对每个基因的表达进行分类,以更准确地区分细胞类型。

2.7  GLISS

GLISS将细胞位置作为连续变量进行处理,包括原则性的和可推广的空间变化基因选择过程:使用基于图形的相关性度量,自动选择多变量空间变量和基因表达信息之间的单调和非单调关联。该过程是无模型的:GLISS不对SGE或scRNA-seq数据的数据生成过程进行分布假设。此外,GLISS的非参数统计程序在经验上是强大的,具有错误发现保证,这对推广和重复性至关重要。

3  ST技术在肿瘤异质性研究中的应用

异质性是恶性肿瘤的主要特征之一,其与肿瘤的发生、发展、转移、侵袭及预后等密切相关。ST技术可直接检测不同组织区域基因表达的异质性,适用于肿瘤组织的异质性研究。例如,同一肿瘤中不同部位肿瘤细胞的转录组水平存在显著差异,大规模的组织区域分析可以使学者对肿瘤微环境中基因差异表达有更深入的了解,从而在解析肿瘤细胞空间分布中发挥重要作用[24]。

3.1  乳腺癌

在女性中,乳腺癌是發病率最高的肿瘤。明确乳腺癌的肿瘤异质性对于确定特定疾病状态、采取合适的治疗方法至关重要。SpatialDE确定115个空间表达变异基因,其中有7个与乳腺癌相关并清楚地将脂肪细胞与组织的较密集区域分开[11]。Spark发现290个空间表达变异基因,其中10个与乳腺癌相关,大多数基因与细胞外基质和免疫反应有关[12]。Trendsceek发现14个空间表达变异基因,涉及乳腺癌的基因具有显著的空间模式,包括转录因子KLF6、跨膜蛋白PMEPA1及12个与细胞外基质相关的基因[10]。ScGCO发现118个空间表达变异基因,其中有具有较低百分比的不可复制基因[23]。MULTLAYER鉴定112个空间表达变异基因[20]。上述研究有助于确定乳腺癌相关生物标志物。

3.2  胰腺癌

胰腺癌是一种难治性恶性肿瘤,目前无有效治疗方法以改善其预后。SpaGCN在人胰腺癌中识别  3个空间域,分别确定每个空间域的特征基因;以空间域2为例,发现meta基因组(KRT17+MMP11- SERPINA1)更能表征空间域2,KRT17在胰腺癌中可作为肿瘤促进剂并调节增殖,而MMP11是胰腺癌预后的生物标志物[15]。

3.3  黑色素瘤

黑色素瘤多发生于皮肤,是一种高度恶性肿瘤。除早期手术切除外,无特效方法且预后较差。因此,寻找黑色素瘤的早期诊断、治疗及预后相关的生物标志物极为重要。Sepal识别出黑色素瘤的4个家族。其中,家族1与黑色素瘤相关;家族2、家族4与免疫相关;家族3与细胞外基质相关[22]。

4  小结与展望

空间转录组学提供了一个空间视角,从全新角度探索生物学研究的不同领域,帮助了解复杂疾病的起源、发育和进展轨迹。大量富含空间信息的转录组数据为科学研究指明新的方向。例如,基于测序技术的ST技术可展现人心脏发育过程中的基因空间、时间序列表达模式[25]。Maniatis等[26]研究肌萎缩侧索硬化症的进展。Chen等[27]确定阿尔茨海默病淀粉样斑块周围组织域的转录变化。空间转录组学还被用于研究各种类型肿瘤的异质性[28-32]。鉴定空间表达变异基因有助于进一步理解驱动肿瘤发生发展的分子机制,探索肿瘤微环境,解析肿瘤异质性;有助于发现肿瘤治疗、预后相关标志物。与此同时,对基于具有空间表达模式的基因进行功能分析,可进一步阐明肿瘤异质性发生发展的生物学过程。治疗方面,通过分析不同肿瘤患者空间位置差异、癌组织与癌旁正常组织差异及免疫细胞的分布差异,指导肿瘤的临床用药。

利益沖突:所有作者均声明不存在利益冲突。

[参考文献]

[1] HU J, SCHROEDER A, COLEMAN K, et al. Statistical and machine learning methods for spatially resolved transcriptomics with histology[J]. Comput Struct Biotechnol J, 2021, 19: 3829–3841.

[2] MANIATIS S, PETRESCU J, PHATNANI H. Spatially resolved transcriptomics and its applications in cancer[J]. Curr Opin Genet Dev, 2021, 66: 70–77.

[3] ZHENG B, FANG L. Spatially resolved transcriptomics provide a new method for cancer research[J]. J Exp Clin Cancer Res, 2022, 41(1): 179.

[4] STÅHL P L, SALMÉN F, VICKOVIC S, et al. Visualization and analysis of gene expression in tissue sections by spatial transcriptomics[J]. Science, 2016, 353(6294): 78–82.

[5] RODRIQUES S G, STICKELS R R, GOEVA A, et al. Slide-seq: A scalable technology for measuring genome- wide expression at high spatial resolution[J]. Science, 2019, 363(6434): 1463–1467.

[6] STICKELS R R, MURRAY E, KUMAR P, et al. Highly sensitive spatial transcriptomics at near-cellular resolution with Slide-seqV2[J]. Nat Biotechnol, 2021, 39(3): 313–319.

[7] DRIES R, CHEN J, DEL ROSSI N, et al. Advances in spatial transcriptomic data analysis[J]. Genome Res, 2021, 31(10): 1706–1718.

[8] LI K, YAN C, LI C, et al. Computational elucidation of spatial gene expression variation from spatially resolved transcriptomics data[J]. Mol Ther Nucleic Acids, 2021, 27: 404–411.

[9] ZENG Z, LI Y, LI Y, et al. Statistical and machine learning methods for spatially resolved transcriptomics data analysis[J]. Genome Biol, 2022, 23(1): 83.

[10] EDSGÄRD D, JOHNSSON P, SANDBERG R. Identification of spatial expression trends in single-cell gene expression data[J]. Nat Methods, 2018, 15(5): 339–342.

[11] SVENSSON V, TEICHMANN S A, STEGLE O. SpatialDE: Identification of spatially variable genes[J]. Nat Methods, 2018, 15(5): 343–346.

[12] SUN S, ZHU J, ZHOU X. Statistical analysis of spatial expression patterns for spatially resolved transcriptomic studies[J]. Nat Methods, 2020, 17(2): 193–200.

[13] ZHU J, SUN S, ZHOU X. SPARK-X: Non-parametric modeling enables scalable and robust detection of&nbsp;spatial expression patterns for large spatial transcriptomic studies[J]. Genome Biol, 2021, 22(1): 184.

[14] BINTAYYASH N, GEORGAKA S, JOHN S T, et al. Non-parametric modelling of temporal and spatial counts data from RNA-seq experiments[J]. Bioinformatics, 2021, 37(21): 3788–3795.

[15] CHARITAKIS N, RAMIALISON M, NIM H T. Comparative analysis of packages and algorithms for the analysis of spatially resolved transcriptomics data[J/OL]. ArXiv, 2021. (2021-08-03)[2023-12-12]. https://arxiv. org/ftp/arxiv/papers/2108/2108.01304.pdf.

[16] SATIJA R, FARRELL J A, GENNERT D, et al. Spatial reconstruction of single-cell gene expression data[J]. Nat Biotechnol, 2015, 33(5): 495–502.

[17] ACHIM K, PETTIT J B, SARAIVA L R, et al. High-throughput spatial mapping of single-cell RNA- seq data to tissue of origin[J]. Nat Biotechnol, 2015, 33(5): 503–509.

[18] HU J, LI X, COLEMAN K, et al. SpaGCN: Integrating gene expression, spatial location and histology to identify spatial domains and spatially variable genes by graph convolutional network[J]. Nat Methods, 2021, 18(11): 1342–1351.

[19] HAO M, HUA K, ZHANG X. SOMDE: A scalable method for identifying spatially variable genes with self-organizing map[J]. Bioinformatics, 2021, 37(23): 4392–4398.

[20] MOEHLIN J, MOLLET B, COLOMBO B M, et al. Inferring biologically relevant molecular tissue substructures by agglomerative clustering of digitized spatial transcriptomes with multilayer[J]. Cell Syst, 2021, 12(7): 694–705.

[21] BAE S, CHOI H, LEE D S. Discovery of molecular features underlying the morphological landscape by integrating spatial transcriptomic data with deep features of tissue images[J]. Nucleic Acids Res, 2021, 49(10): e55.

[22] ANDERSON A, LUNDEBERG J. Sepal: Identifying transcript profiles with spatial patterns by diffusion- based modeling[J]. Bioinformatics, 2021, 37(17): 2644–2650.

[23] ZHANG K, FENG W, WANG P. Identification of spatially variable genes with graph cuts[J]. Nat Commun, 2022, 13(1): 5488.

[24] 趙宇豪, 李永盛, 央茂, 等. 空间转录组测序技术在肿瘤发生发展机制中的应用及前景[J]. 中华医学杂志, 2022, 102(20): 1551–1554.

[25] ASP M, GIACOMELLO S, LARSSON L, et al. A spatiotemporal organ-wide gene expression and cell atlas of the developing human heart[J]. Cell, 2019, 179(7): 1647–1660.

[26] MANIATIS S, ÄIJÖ T, VICKOVIC S, et al. Spatiotemporal dynamics of molecular pathology in amyotrophic lateral sclerosis[J]. Science, 2019, 364(6435): 89–93.

[27] CHEN W T, LU A, CRAESSAERTS K, et al. Spatial transcriptomics and in situ sequencing to study Alzheimer's disease[J]. Cell, 2020, 182(4): 976–991.

[28] BERGLUND E, MAASKOLA J, SCHULTZ N, et al. Spatial maps of prostate cancer transcriptomes reveal an unexplored landscape of heterogeneity[J]. Nat Commun, 2018, 9(1): 2419.

[29] THRANE K, ERIKSSON H, MAASKOLA&nbsp;J, et al. Spatially resolved transcriptomics enables dissection of genetic heterogeneity in stage Ⅲ cutaneous malignant melanoma[J]. Cancer Res, 2018, 78: 5970– 5979.

[30] YOOSUF N, NAVARRO J F, SALMÉN F, et al. Identification and transfer of spatial transcriptomics signatures for cancer diagnosis[J]. Breast Cancer Res, 2020, 22(1): 6.

[31] MONCADA R, BARKLEY D, WAGNER F, et al. Integrating microarray-based spatial transcriptomics and single-cell RNA-seq reveals tissue architecture in pancreatic ductal adenocarcinomas[J]. Nat Biotechnol, 2020, 38(3): 333–342.

[32] JI A L, RUBIN A J, THRANE K, et al. Multimodal analysis of composition and spatial architecture in human squamous cell carcinoma[J]. Cell, 2020, 182(6): 1661–1662.

(收稿日期:2022–12–24)

(修回日期:2023–11–24)