栉孔扇贝LTR逆转录转座子的基因组分布特征及时空表达模式分析*

2020-09-17 09:32刘盼盼李语丽刘福云于洪伟包振民
关键词:转座子逆转录扇贝

刘盼盼,李语丽,2**,刘福云,于洪伟,包振民,3,王 师,2

(1.中国海洋大学海洋生命学院,海洋生物遗传学与育种教育部重点实验室,山东 青岛 266003;2.海洋生物学与生物技术功能实验室,青岛海洋科学与技术试点国家实验室,山东 青岛266237;3.海洋渔业科学与食物产出过程功能实验室,青岛海洋科学与技术试点国家实验室,山东 青岛266237)

转座子又被称为跳跃因子(Mobile genetic elements),最早是由Mc Clintock在玉米中发现[1]的。近几十年的研究表明,转座子存在于所有真核生物的基因组中,并对基因组的进化起着重要的作用[2]。根据转座方式的不同,转座子主要被分为两大类,第一类是过“剪切-黏贴”的方式进行移动的DNA类型的转座子,这种转座的方式并不会影响基因组的大小;第二大类是通过“复制-黏贴”的方式,以RNA为中介插入基因组的其它位置,这类转座子又被称为逆转录转座子,这种转座方式会直接影响基因组的大小。逆转录转座子根据结构的不同分为LTR逆转录转座子和非常末端重复序列(non-LTR)逆转录转座子。LTR逆转录转座子是真核生物基因组最为丰富的组成成分之一[3]。LTR逆转录转座子一般包括五个不同的亚家族——Ty1-copia、PAO、DIRS、Ty-3 Gypsy和ERV(vertebrate retrovirus),它们广泛分布于动物和植物基因组中[4]。LTR逆转录转座子结构与逆转录病毒十分相似[5],通常翻译抗原蛋白(gag)和多聚蛋白(pol)的基因,包含在一个开放阅读框或者两个开放阅读框中[6],pol基因翻译与转座相关的酶,包括整合酶(INT)、逆转录酶(RT)以及内切酶(RNaseH)。DIRS、Ngaro与其它几类逆转录转座子的区别比较大,这两类逆转录转座子属于YR(酪氨酸重组酶)类型的逆转录转座子[7],YR(酪氨酸重组酶)代替了INT整合酶的功能。

动物中LTR逆转录转座子超家族的分布情况是不一样的,通过对昆虫、线虫、脊索动物、真菌[3,8-9]基因组中的逆转录转座子Gypsy和Copia的研究发现,这两类逆转录转座子在分布、拷贝数量、多样性上是显著不同的。Gypsy在各类后生动物物种都广泛存在,占有重要的比例,尤其在无脊椎动物中Gypsy是分布最为丰富的一类LTR;Copia在植物中报道的较多,而在动物中分布较少[10],研究发现近1/3的后生动物不存在这类转座子[11];Copia和BEL在拷贝数量以及多样性上都低于Gypsy[12];Ngaro与DIRS都属于YR类型的转座子,研究发现DIRS和Ngaro逆转录转座子在鸟类以及哺乳类中是缺失的,但普遍存在于昆虫、鱼类、海洋生物以及爬行类动物中[13]。

逆转录转座子的转座与扩张是基因组扩增的主要因素,作为逆转录转座子重要成分之一的LTR逆转录转座子,除了能够影响基因组的大小之外,还能够通过拷贝之间的同源重组对基因组不稳定性产生显著的影响,也可能对基因组进化产生长期影响[14-15]。转座子在基因组中并非是随机分布的,它们与一些功能元件之间有密切的联系[16-17],转座子不仅影响基因组的结构,还在基因表达调控中发挥重要的作用,有些转座子偏好插入基因或接近基因侧翼区域,导致影响基因功能的突变。一些转座子如果插入到基因的启动子区,该转座子的调控元件会对基因的表达产生影响[18]。

软体动物门是仅次于节肢动物门的第二大后生动物门类,具有丰富的形态多样性和广泛的环境适应性(海水、淡水、陆地等),是研究转座子的一类较好的生物模型。软体动物转座子的研究已经取得了一些进展,比如对牡蛎(Craistostreavirginica)中的MITE Pearl[19]、滨螺(Littorinasaxatilis)中的Tc1 / mariner[20]、腹足动物和双壳类中新的SINE超家族[21-22]的鉴定和功能分析;在缅甸软蛤(Myaarenaria)及在深海双壳类中的细胞中检测到活跃的Gypsy元件Steamer[23-24]。近期,Thomas 等则对九种软体动物的Gypsy、Copia、BEL逆转录转座子进行了鉴定和比较分析,发现Gypsy亚家族占有明显主导地位[25]。由于贝类基因组学研究起步较晚,相对于模式动物来说,贝类的转座子研究相对匮乏,此前软体动物中多是针对单个逆转录转座子或某个/些亚家族进行研究,缺乏对转座子起源进化、功能机制的系统认知。

转录组学和表观基因组学最近的研究表明,LTR提供了许多新的基因调节元件,包括组织特异性启动子和增强子[26],革新了人们对LTR的传统认知。本文利用已发表的栉孔扇贝(Chlamysfarreri)基因组信息[26],对栉孔扇贝LTR逆转录转座子各个亚家族拷贝数量及长度进行了统计,对LTR在染色体上的分布特征进行了分析,并对栉孔扇贝Gypsy、Ngaro、DIRS三类主要LTR与基因的关系做了初步的探讨,同时对LTR逆转录转座子各个亚家族在胚胎发育时期的表达模式进行了分析。这些结果为进一步理解转座子对基因组进化的作用提供有益参考。

1 数据来源与分析方法

1.1 数据来源

本研究使用的数据来源于已发表的栉孔扇贝基因组重复序列的注释信息,其重复序列的鉴定是通过以下流程实现的:使用RepeatModeler[27],RepeatScout,Piler[28]和 LTR_FINDER[29]软件预测出来的数据结合RepBase核酸库,通过Uclust[30]软件按照 80-80-80 原则进行整合,最后利用RepeatMasker[29]软件进行注释得到denovo从头预测以及homology-based的转座子元件;TE proteins则是基于RepBase蛋白库分别通过RepeatProteinMask[27]软件注释基因组得到的转座子元件;将上述两种方法鉴定的转座子合并、去冗余后获得用于后续分析的逆转录转座子[31]。栉孔扇贝胚胎时期转录组数据同样来源于已发表的数据[31]。

1.2 分析方法

1.2.1 栉孔扇贝LTR逆转录转座子的分类统计及分布特征 利用栉孔扇贝转座子的注释文件统计每条染色体上分布的LTR逆转录转座子的拷贝数量、长度,计算LTR逆转录转座子在每条染色体上的分布密度及皮尔森相关系数,探究染色体长度与LTR逆转录转座子拷贝数以及染色体长度与LTR逆转录转座子的分布密度之间的相关性;利用栉孔扇贝基因结构注释文件统计基因在染色体上的数量及位置信息;通过栉孔扇贝转座子的注释文件统计LTR逆转录转座子各个亚家族在染色体上的位置信息,并利用bedtools[32]来统计每10 kb染色体上分布的LTR逆转录转座子各个亚家族的数量;最后绘制Circos[33]图展示LTR逆转录转座子各个亚家族及基因在染色体上的分布特征。

利用bedtools[34]统计了Gypsy、Ngaro及DIRS分别分布在基因间区、基因组上游3 kb、下游3 kb的数量,进而统计了分布在基因编码区(CDS)区、5’UTR区、3’UTR区、内含子区域分布的三类逆转录转座子的数量。

1.2.2 栉孔扇贝LTR逆转录转座子在胚胎发育各个时期及在成体各个组织中的表达 将LTR逆转录转座子中分布最多的Ngaro、DIRS、Gypsy、Copia和ERV1在胚胎各个发育时期的表达量以及在成体各个组织中的表达量进行统计,数据处理具体流程:

1.TPM 的计算,首先利用将栉孔扇贝转座子注释文件中的 LTR 逆转录转座子 的注释信息根据 Perl 脚本单独提出为 CF.LTR.all。利用 Cufflinks 软件将 CF.LTR.all 的格式转换为 gtf 的格式;将栉孔扇贝胚胎幼虫各个时期的数据以及 成体各个组织的数据(已经进行了 reads 的过滤)以 栉孔扇贝的基因结构文件为参考序列,利用STAR进行比对命令行得到比对好的 SAM文件将得到的 SAM 文件转换为 BAM 格式得到 BAM 文件,然后将 BAM 文件进行排序,将排序好的文件 通过 featureCounts 进行 counts 统计得到 count 文件。将得到的栉孔胚胎各个时期以及成体各个组织的表达进行 count 统计。以 raw count (RC)为标准,利用 Perl 脚本计算各个 LTR 转座子在 各个胚胎发育时期以及各个成体组织的 TPKM 值。各个发育时期的表达量以及在成体各个组织中的表达量进行统计,绘制柱状图。

2.计算各个转座子在胚胎发育各个时期以及成体各组织表达量的标准差,规定 标准差在≥10时认为是差异表达的,利用筛选出来的这些转座子以及其 TPM 值,利用软件 R 包进行热图的绘制。得到各个时期各个转座子表达的热图以及成体各个组织转座子的表达热图。

2 结果

2.1 栉孔扇贝LTR逆转录转座子的分类统计及分布特征分析

栉孔扇贝中逆转录转座子拷贝数量最多的是LTR逆转录转座子,有42万个拷贝。LTR逆转录转座子主要包含6个亚家族,其中拷贝数量最多的是Gypsy、Ngaro和DIRS(见表1)。通过LTR逆转录转座子各个亚家族的长度分布可以看出,Gypsy、Ngaro、DIRS三类逆转录转座子在基因组中总的碱基数目上也占有较大的比例(见图1)。

图1 LTR逆转录转座子各个亚家族的长度分布Fig.1 Length distribution of various LTR retrotransposons

栉孔扇贝LTR逆转录转座子在不同染色体上的分布是不同的。不同染色体上LTR的拷贝数是不同的(见表2),染色体长度与LTR逆转录转座子总长度之间具有正相关性(皮尔森相关系数r=0.906 6),即染色体长度越长,分布的LTR逆转录转座子的总长度越长,同时LTR逆转录转座子的拷贝数量也越多。染色体长度与每Mb拷贝数之间具有负相关性(皮尔森相关系数r=-0.919 9),即染色体越长,LTR逆转录转座子的分布密度越小。

表2 栉孔扇贝LTR逆转录转座子在各条染色体上的分布数量以及密度Table 2 Distribution number and density of LTR retrotransposon on each chromosome of scallop

为了进一步调查转座子的分布与基因的关系,本研究统计了Gypsy、Ngaro、DIRS三大类拷贝数量较多的逆转录转座子在基因上下游3 kb及基因内部的分布情况。三类逆转录转座子均表现为在基因间区的分布最多,Gypsy、DIRS分布在基因间区的转座子占比都在50%以上,Ngaro分布在基因间区的比例是三类LTR中最低的,而Ngaro在基因区分布的比例较其它两类偏高(见图2)。三类逆转录转座在基因区有相似的分布规律,绝大部分分布在内含子区域,分布在CDS区域的转座子数量较少(见图3)。

(A:Gypsy;B:Ngaro;C:DIRS)图2 Gypsy,Ngaro,DIRS逆转录转座子在基因上、下游,内部和间区的分布统计Fig.2 Distribution of Gypsy,Ngaro and DIRS in upstream,downstream,internal and IG regions of gene

图3 Gypsy、Ngaro、DIRS逆转录转座子在基因区的分布Fig.3 Distribution of Gypsy,Ngaro and DIRS in gene region

2.2 LTR逆转录转座子在胚胎发育各个时期的表达模式

为了了解不同类型的逆转录转座子在栉孔扇贝胚胎发育时期的活跃情况,本研究绘制了Gypsy、Ngaro、DIRS、Pao、Copia和ERV1六类主要LTR的表达模式(见图4)。在胚胎发育的各个时期六类主要的LTR逆转录转座子都有表达,其中Gypsy和Ngaro这两类逆转录转座子在胚胎发育各个时期的表达量都远高于其它四类,表明Gypsy和Ngaro这两类逆转录转座子在整个胚胎发育时期都处于较活跃状态。Gypsy及Ngaro类型转座子呈现动态表达,表现为从受精卵时期到壳顶幼虫时期呈现先上升后下降的趋势,到了壳顶期整体又有下降的趋势,表达量的峰值出现在担轮幼虫时期。其它四类LTR的表达量整体偏低。

根据LTR逆转录转座子在胚胎发育各个时期的整体表达情况,对表达量较高的Gypsy和Ngaro中具有差异表达的LTR绘制了胚胎发育各个时期的表达模式图(见图5),从图中可以看出这两类逆转录转座子在胚胎发育过程中不是恒定表达的,而是在不同时期有不同特异高表达的转座子种类,而且相邻的时期表达模式往往比较接近。高表达的LTR即处于活跃状态的LTR,在胚胎发育早期(原肠胚时期之前)和发育后期(稚贝时期)要明显多于壳顶幼虫时期,这与图4中两类LTR的总表达模式是一致的。

(Zygote:受精卵;2~8 cells:多细胞期;Blastula:囊胚期;Gastrula:原肠胚;Trochophore:担轮幼虫;Dstage veliger:D形幼虫期;Umbo early/middle/post:壳顶幼虫前期/中期/后期;Pedi veliger:匍匐幼虫;Juvenile:稚贝)图4 LTR逆转录转座子的六个主要亚家族胚胎发育过程的表达模式Fig.4 Expression profiles of the six major subfamilies of LTR retrotransposonsduring embryonic stages

2.3 LTR逆转录转座子在各成体组织器官中的表达模式

为了了解不同类型的逆转录转座子在栉孔扇贝各组织器官中的活跃情况,本研究绘制了Gypsy、Ngaro、DIRS、Pao、Copia和ERV1六类主要LTR的组织器官表达模式图(见图6)。不同种类逆转录转座子的表达具有组织的差异性。与胚胎发育过程的表达模式类似,Gypsy和Ngaro两种类型的逆转录转座子在大部分组织器官中占据表达优势。与胚胎发育时期略有不同的是,在成体组织器官中Gyspy的表达优势更明显,体现为在绝大部分组织器官中Gypsy的表达量都高于Ngaro。唯一例外的组织是肝胰腺,肝胰腺中表达量最高的LTR类型为ERV1,是其它组织器官中表达量的4~5倍,而在其它组织器官中占表达优势的Gypsy和Ngaro在肝胰腺中表达量非常低。

通过绘制Gypsy和Ngaro两类高表达的LTR转座子在成体各组织器官的差异表达情况,发现LTR较活跃的组织器官主要有鳃、肾、性腺、血淋巴(见图7)。作为组织类型接近的雄性性腺和雌性性腺,其LTR的表达模式差别非常大,其中Gypsy类型的LTR主要在雄性性腺中发挥作用,而Ngaro类型的LTR在雌雄性腺中高表达的模块几乎没有交集,表明高表达的Ngaro在这两种组织中是不同的。在组成闭壳肌的两种肌肉类型——横纹肌和平滑肌中,高表达的LTR种类也是不同的,横纹肌中活跃的Gypsy和Ngaro类型的LTR明显多于平滑肌。

(Zygote:受精卵;2~8 cells:多细胞期;Blastula:囊胚期;Gastrula:原肠胚;Trochophore:担轮幼虫;Dstage veliger:D形幼虫期;Umbo early/middle/post:壳顶幼虫前期/中期/后期;Pedi veliger:匍匐幼虫;Juvenile:稚贝)图5 差异表达的Gypsy及Ngaro逆转录转座子在胚胎发育各个时期的表达模式Fig.5 Expression patterns of differentially expressed Gypsy and Ngaro retrotransposons at various stages during embryo development

(Gill:鳃;Mantle:外套膜;Kidney:肾;Mgonad:雄性性腺;Fgonad:雌性性腺;Eye:眼;Foot:足;Hepatopancreas:肝胰腺;Hemolymph:血淋巴;Adductor muscle:横纹肌;Smooth muscle:平滑肌)图6 LTR逆转录转座子的六个主要亚家族在成体各个组织的表达柱形图Fig.6 Histogram of expression of six major subfamilies of LTR retrotransposons in adult tissues

(Gill:鳃;Mantle:外套膜;Kidney:肾;Mgonad:雄性性腺;Fgonad:雌性性腺;Eye:眼;Foot:足;Hepatopancreas:肝胰腺;Hemolymph:血淋巴;Adductor muscle:横纹肌;Smooth muscle:平滑肌)图7 差异表达的Gypsy及Ngaro逆转录转座子在成体各个组织中的表达模式(a:Gypsy;b:Ngaro)Fig.7 Expression pattern of differentially expressed Gypsy and Ngaro retrotransposons in adult tissues(a:Gypsy;b:Ngaro)

3 讨论

LTR逆转录转座子是真核生物基因组的重要组成成分,是影响基因组进化的一个重要因素。在不同种类的后生动物中,LTR逆转录转座子亚家族的分布情况是不一样的,Gypsy在无脊椎动物中是分布最为广泛的一类LTR逆转录转座子[35];而对于YR类型的逆转录转座子,研究发现DIRS和Ngaro在鸟类以及哺乳类中是缺失的,而主要分布在昆虫、鱼类、海洋生物以及爬行类动物中[8]。在栉孔扇贝转座子中,LTR逆转录转座子各个亚家族在染色体上的总长度与染色体的长度呈现显著的正相关,染色体越长分布的转座子总长度越长,而分布密度与染色体长度之间是显著负相关关系,染色体越长每Mb包含的转座子的数量越少。在建鲤中则发现转座子是弥散分布的,但基本都分布在染色体的顶端[34];Takahashi等[36]的研究表明转座子在染色体上的分布位置并没有规律性;在植物中发现的Gypsy分布多的地方基因明显分布少,Gypsy主要集中在着丝点附近分布[37];由此可见在不同的物种内转座子在染色体上的分布特征存在着很大的差异性。通过对三类转座子在基因上下游、基因内部、基因间区的统计发现三类逆转录转座子都有50%左右的LTR分布在基因的间区,分布在基因间区的转座子可能会导致复杂的重排过程从而影响基因的调控[38-39]。分布在基因区的三类逆转录转座子在内含子区分布的数量是最多的,远高于在CDS区的分布数量,产生这种结果的原因可能是:内含子区域相比编码区域受到更小的选择压力,因而插入内含子区域的转座子往往会有更大的存活机会[40]。

目前关于转座子在胚胎发育时期的表达与功能的研究还较少,有研究报道在人、小鼠以及绵羊的胎盘中检测到了很多ERV编码的Env蛋白,这种蛋白能够促进细胞融合以及合胞体的形成[41],敲掉特定的ERV之后早期胚胎发育会受阻。斑马鱼中通过qPCR发现逆转录转座子在脑与心脏中的表达量明显的高于其他组织中的表达量[42]。在建鲤中鉴定到的Gypsy逆转录转座子JRE,在建鲤的各个组织中都有表达而在肝以及心脏中的表达量略高于其他组织[43]。本研究通过生物信息学的手段,分析了LTR逆转录转座子在胚胎发育各个时期以及成体各个组织中的表达量及表达模式。Gypsy及Ngaro在胚胎发育的各个时期及成体各个组织中都具有较高的表达量,表明这两类逆转录转座子处于较为活跃的状态。本研究也在在扇贝胚胎发育时期也鉴定到了大量表达的ERV1转座子,为后续研究其在扇贝胚胎发育中的作用提供了重要的线索,同时发现肝脏中ERV的表达量明显高于其他组织,而在肝脏中Gypsy及Ngaro表达量明显低于其他组织。在胚胎发育的不同时期以及成体各个组织,Gypsy、Ngaro都有各自特异性高表达的转座子,这些特异高表达的转座子具体生物学功能还需要进一步的实验验证。

本研究通过对栉孔扇贝逆转录转座子在基因组的分布特征和时空表达模式进行系统分析,为系统认知逆转录转座子并深入理解逆转录转座子对基因组进化的作用提供了新的线索。

猜你喜欢
转座子逆转录扇贝
毛竹Mariner-like element自主转座子的鉴定与生物信息学分析*
毛竹长末端重复序列反转录转座子的全基因组特征及进化分析
抗逆转录病毒治疗对艾滋病患者脑灰质体积的影响
病毒如何与人类共进化——内源性逆转录病毒的秘密
淅川乌骨鸡全基因组转座子的鉴定与分析
扇贝的眼睛在哪里
水稻转座子受驯化选择和在抗病抗逆中的调节功能
扇贝的眼睛“排排站”
烤扇贝:贝壳反复利用,壳比肉还贵
鲤春病毒血症病毒逆转录环介导等温扩增(RT—LAMP)检测方法的建立