植物长链非编码RNA的生物信息学预测与分析研究进展

2019-09-04 12:20王勇庆张水寒
生物信息学 2019年3期
关键词:信息学基因组编码

蔡 媛, 钟 灿, 刘 浩, 金 剑, 王勇庆, 张水寒

(湖南省中医药研究院 中药研究所, 长沙 410013)

多年来,研究人员对基因组的研究主要聚焦在蛋白质编码基因,其研究思维也一直遵从经典中心法则“DNA-mRNA-蛋白质”。随着人类基因组及其他物种海量基因组的不断解析和深入研究,以及蛋白组学和转录组学的蓬勃发展,促进了RNA组学研究的日趋成熟,揭示高等真核生物的遗传物质只有极小一部分编码蛋白质,绝大部分都不编码蛋白质和多肽,这部分非编码蛋白基因一直被当做“噪音”或者是“垃圾”(Junk)分子[1]。能够编码蛋白的mRNA已经不再独占转录组鳌头,许多不同类型的非编码调控RNA逐一进入研究者的视线,并陆续被证明具有重要的生物学意义。

长链非编码RNA(long non-coding RNA,lncRNA)是在真核生物中新发现的一类长度大于200个核苷酸、没有阅读框架,但往往具有mRNA结构特征(帽式结构和polyA尾巴)的RNA[2-3]。大多数lncRNA由RNA聚合酶Ⅱ转录翻译而来,少数由RNA聚合酶Ⅲ转录而来,以RNA的形式在多种层面上调控基因的表达。lncRNA在基因组中普遍存在转录现象,但较之mRNA往往表达水平比较低,其自身的表达水平也受到转录及转录后调控机制的严密调节。相对于长链非编码RNA在哺乳动物上的研究,植物长链非编码RNA的研究才刚刚开始[4-6]。生物信息学的迅猛发展,改变了传统lncRNA的研究方式,极大地促进了植物lncRNA的研究发展。长链非编码RNA在植物生命活动中发挥着重要的作用,不同类的长链非编码RNA在植物中发挥的功能也不尽相同,主要包括调节生长发育、影响转录调控、染色体结构、mRNA的稳定性与翻译、RNA加工与修饰等[[7-9]。最近获得的基因组序列呈爆炸性地增加,从而激发了用快速、有效和精确的方法组织和获取重要序列以及结构元件的能力需求。新获得的数据显示,迄今为止,一类潜在的重要基因类型我们还没有检测到,有一大类功能RNA分子或隐藏在蛋白质编码之间或位于编码蛋白质区内(内含子中),至今未被注释。然而,任何功能分析中,都不应该遗漏在基因组范围寻找非编码RNA(non-coding RNA)。如何能像发现读码框一样发现没有强烈结构特征的调控RNA,本文就近年来植物中已发现的lncRNA的种类、参与的生物学过程、发挥功能的分子机制及其生物信息学预测与分析进行综述和展望,以期为更深入认识植物lncRNA提供借鉴。

1 植物lncRNA的分类及其生物学功能

1.1 植物lncRNA的分类

1.1.1 按其与编码蛋白基因的相对位置分类

长链非编码RNA根据其在基因组中与蛋白质编码基因的相对位置,一般将其分为正义lncRNA(Sense long non-coding RNA)、反义lncRNA(Antisense long non-coding RNA)、双向lncRNA(Bidirectional long non-coding RNA)、基因内lncRNA(Intronic long non-coding RNA)和基因间lncRNA(Intergenic long non-coding RNA)五类[10]。其中,基因间lncRNA也被称为大型介入性非编码RNA,即lincRNA(Large intervening noncoding RNA),位置关系对于推测其功能具有重要的作用。

1.1.2 按其作用机制分类

按照lncRNA发挥作用的分子机制,Wang等将lncRNA分为了以下四类,即信号分子(Signals)、诱饵分子(Decoys)、引导分子(Guides)、骨架分子(Scaffolds)[11]。Wilusz等[12]总结了生物体内lncRNA的具体机制,包括:(1)在编码蛋白基因的上游启动子区转录,从而干扰邻近蛋白编码基因的表达(如酵母SER3基因)[13];(2)抑制 RNA 聚合酶Ⅱ,或介导染色质重构和组蛋白修饰,而影响基因表达[14];(3)LncRNA与编码蛋白基因的转录本形成互补双链,干扰mRNA的剪切,进而产生不同的剪切形式[15];(4)LncRNA与编码蛋白基因的转录本形成互补双链,在Dicer 酶作用下产生内源性的siRNA,调控基因的表达水平[16];(5)LncRNA结合在特定蛋白质上调节相应蛋白的活性[17];(6)作为结构组分与蛋白质形成核酸蛋白质复合体[18];(7)结合在特定蛋白上从而改变该蛋白的胞质定位[19],研究者发现,MtEnod40能够与MtRBP1蛋白结合,引导MtRBP1从细胞核的核小点到细胞质颗粒的重定位[20];(8)可作为小分子 RNA(如 miRNA)的前体分子[21]。在植物中,有研究表明lncRNA作为小RNA生物合成前体。研究发现水稻光敏雄性不育关键调控基因LDMAR最终被发现通过剪切加工形成了长21 nt的小RNA osa-smR5846w/m。Ding和Zhu等研究显示,1 236 nt长的LDMAR可能是初级转录本,该初级转录本会被加工为一条长136 nt的中间转录本,最终才形成21 nt的小RNA[22-24]。

1.2 植物lncRNA的生物学功能

长链非编码RNA的基因不像编码基因那样编码蛋白质,但是它们具有丰富强大的生物学功能。大量数据表明,这些lncRNA可能在从蛋白质分泌到广泛的基因调节细胞过程中起重要作用。它们在诸如剂量补偿、基因印迹、转录调控、前mRNA剪接和mRNA翻译控制等不同的途径中发挥功能[25]。LncRNA在植物生长发育过程中扮演着重要角色,处于基因调控网络的核心位置,调控各种重要生物途径,包括发育、代谢、抗病、胁迫、应激反应、激素信号和维护基因组的完整性等[26-30]。目前,在拟南芥、小麦、水稻、玉米、黄瓜等植物中发现了大量lncRNAs,但是明确其功能机制的不到1%。研究比较透彻的主要集中在生长发育、逆境胁迫、生殖发育等方面。

1.2.1 lncRNA参与植物成花过程

长链非编码RNA引起植物研究人员的兴趣始于lncRNA能够调控春化作用的关键蛋白FLC来实现开花的转变。并且,研究者发现有两种lncRNA参与调节FLC基因,从而参与调节植物的开花过程[28, 31]。在拟南芥中,COOLAIR通过吸引相关蛋白清除FLC上激活型组蛋白甲基标记,引起FLC正向转录本的沉默。COLDAIR则通过结合PcG蛋白复合体使FLC染色质组蛋白抑制型甲基化,引起FLC沉默。这两种长链非编码RNA都通过沉默FLC而参与调节春化过程,影响植物开花的时间。

1.2.2 LncRNA参与植物的胁迫响应

在植物的生长发育过程中,不可避免地受到病害、干旱、磷、盐等胁迫。研究者发现,在逆境胁迫中,lncRNA扮演重要角色。研究者发现Npc536在拟南芥根和叶中调控响应盐胁迫。在盐胁迫下,Npc536的T-DNA插入突变体无明显表型,过表达可以促进在盐胁迫条件下的根系生长,提高初生根的生长和次生根的伸长[32]。另外,在拟南芥中,IPS1和At4是由磷饥饿诱导产生,其可以阻止miR399对靶基因PHO2的抑制作用而调节磷含量的动态平衡[33-35]。

1.2.3 LncRNA参与植物的生殖发育

研究者在水稻中筛选到调控水稻光敏性雄性不育的lncRNA-LD MA,该基因是长日照植物特有的雄性生殖相关的lincRNA,在长日照条件下转录表达,是水稻花粉正常发育所需。自发突变系水稻植株改变LDMAR的二级结构,提高LDMAR启动子区域的甲基化程度,从而降低LDMAR转录,尤其是在长日照调节下,导致发育中花药过早的程序性死亡,从而导致PSMS,阐明lncRNA在水稻生殖进程中的重要调控作用[22-24]。

2 植物lncRNA的生物信息学预测及策略

目前,植物长链非编码RNA的预测方法主要分为生物信息学方法和实验RNA组学方法。实验RNA组学方法是通过RNA-Seq、构建cDNA数据库、微阵列分析和基因组SELEX等发现lncRNA[36]。高通量测序技术是发现lncRNA的有效方法,可以直接、快速地发现低丰度、新的lncRNA。目前研究中一般首先采用生物信息获得目标序列,然后再进行下一步的功能验证及其机制研究。

生物信息学方法主要是利用某种算法,通过设计筛选标准,建立评分系统,对候选序列进行选择。伴随着物种测序工作的逐步开展和序列信息的日益丰富,利用生物信息学发现和预测lncRNA序列的方法已经成为简单、高效的策略之一。但是大部分策略仅能预测得到保守的lncRNA序列。同时也会出现假阳性序列,需要通过进一步的实验验证,来完善预测和研究。

在众多发现和研究lncRNA的方法中,生物信息学方法以其方便、快速和经济的优势受到许多研究者的青睐[37]。事实证明,生物信息学方法是预测和发现新lncRNA的有效方法,是以基因组序列和计算机程序鉴定为基础[38]。目前,通过各种计算机软件以及其他计算工具已经成功地预测和鉴定了动植物中大多数lncRNA[39- 40]。

在过去十几年中,人们通过生物信息学手段和分子克隆方法从拟南芥(ArabidopsisthalianaL.)[21, 28, 31-34, 41-53]、水稻(OryzasativaL.)[22-24, 54-57]、玉米(ZeamaysL.)[58-61]、小麦(TriticumaestivumL.)[30]、黄瓜(CucumissativusL.)[62]、苜蓿(Medicagotruncatula)[63-66]、番茄(Solanumlycopersicum)[67]、大豆(Giycinemax)[68]、油菜(BrassicacampestrisL.)[69-71]等植物中发现了大量的多种类型的lncRNA(见表1)。

2.1 植物lncRNA靶基因预测及策略

LncRNA具有多种重要功能,寻找lncRNA靶基因并挖掘它对基因表达、蛋白合成各方面的调控作用成了lncRNA研究的关键。LncRNA靶基因的预测,大致可分为两种情况:已知gene symbol的lncRNA和新发现的lncRNA。对已知gene symbol的lncRNA,可以直接通过软件数据库例如starBase、CHIPBase、NONCODE等,利用gene symbol搜索其相关信息。对于新发现的lncRNA来说,目前现有的数据库物种信息十分有限,数据信息也必将少,所以对于转录本预测出的没有symbol号的新lncRNA,由于lncRNA对靶基因没有固定的作用模式,基因调控可能以顺式(Cis)或反式(Trans)作用发生。所以,可根据不同作用方式分别进行预测,包括顺式作用靶基因预测及反式作用靶基因预测。

顺式作用靶基因预测,认为lncRNA的功能与其坐标临近的蛋白编码基因相关,位于编码蛋白上下游的lncRNA可能与启动子或者共表达基因的其他顺式作用元件有交集,从而在转录或者转录后水平对基因的表达进行调控。判断一个lncRNA具有顺式调控作用通常要同时满足以下几个条件:(1)附近的基因表达情况与其保持一致;(2)该基因失活后会影响周围基因的表达;(3)会影响附近同一位点的基因表达。对于满足以上条件的lncRNA,首先找出位于其上游或者下游附近(10 k)的编码蛋白基因,通过对编码蛋白的功能富集分析,从而预测lncRNA的主要功能,为后续顺式作用分析打下基础。

表1 植物中已报道的lncRNATable1 The reported lncRNAs in plants

反式作用靶基因预测基本原理认为lncRNA的功能与编码基因的位置关系没有关系,而与其共表达的蛋白编码基因相关。当lncRNA与一些距离较远的基因在表达量上存在正相关或者负相关的情况时,可以通过样本间lncRNA与蛋白编码基因的表达量相关性分析或共表达分析方法来预测其靶基因。当样本数≥6时,使用Pearson相关系数法分析样本间lncRNA与蛋白编码基因的相关性,对相关性最高的编码基因蛋白进行功能富集分析进而预测lncRNA功能;当样本数≥24时,使用WGCNA方法将表达模式相似的基因聚类得到不同的共表达模块,根据模块内的已知的编码基因功能预测lncRNA的功能。

除了顺式作用和反式作用调控,lncRNA参与调控许多转录后进程时,与miRNA和snoRNA等小RNA类似,这些调控往往与碱基的互补配对有关。一部分反义lncRNA可能因为与正义链的mRNA结合而调控基因沉默、转录及mRNA的稳定性。所以,lncRNA的反义分析,可以利用软件(如RNAplex)预测反义lncRNA与mRNA之间的互补配对关系,根据热力学结构计算最小自由能来预测最佳碱基配对关系。

生物信息学预测还可以通过比较基因组学策略。尽管lncRNA一级和二级结构不完整,但小部分具有保守性,可根据其保守性推测功能。通过与miRNA 或蛋白相互作用预测,如通过miRcode算法通过miRNA推测 lncRNA,也可通过评估其潜在互作蛋白推测其功能如catRAPID算法。

2.2 植物lncRNA 相关数据库及预测工具

随着高通量测序技术的发展,植物lncRNA的研究已经取得显著进展。随着与植物相关的新lncRNA出现,收集归类植物非编码RNA基因相关信息的数据库也开始出现,建立了系列针对植物的lncRNA数据库,如TAIR10、PlantNATsDB, PLncdb等(见表2)。这些数据库信息的来源主要是通过汇总ChIP-seq、RNA-seq、Tilling array、文献,等其他数据库信息。LncRNAdb(lncRNAs Database)数据库收录了289条真核生物的lncRNA相关信息,包含lncRNA特征、进化保守性、表达、功能、种类、相关组件、序列及对应的文献。与植物相关的包括At4、COOLAIR、COLDAIR、AtIPS1、Npc48、Npc536、TERRA、OsPI1、OsENOD40、MtENOD40、TPSI1,GmENOD40等16个lncRNA表达情况及相关信息[74]。TAIR10(TheArabidopsisInformation Resource)是拟南芥专属数据库[75-76],汇总了拟南芥基因组序列及其基因图谱、序列、表达、功能等,共收录478条lncRNA信息。PlantNATsDB(Plant Natural Antisense Transcripts DataBase)数据库包括2 138 498条反义转录对,其主要用于预测和查询植物天然反转录及其调控功能的数据库[77]。PLncDB(Plant long non-coding RNA database)是目前收录植物lncRNA最齐全的数据库。该数据库通过收集Tilling array、RNA-seq,文献过滤等信息,获得16 227条lncRNA数据,能够提供不同组织、发育阶段、突变体和胁迫处理等应激条件下lncRNA的表达特征,编码位点及其侧翼基因组区域表观遗传变化和功能[78]。NONCODE数据库是专注于分析非编码RNA基因的综合知识平台,所有收入的非编码RNA基因都是采取计算机自动过滤GenBank数据和文献报道中的信息,且经过人工检查确认,共收录423 976条lncRNA信息。可查阅lncRNA的长度、序列信息、生物功能及其表达模式、基因组上下游序列调控元件等[79]。PNRD数据库目前数量约28 214,来自166种物种。包括lncRNA,tRNA,rRNA,tasiRNA,snRNA和snoRNA等。PNRD是一个植物ncRNA综合分析平台,能够提供许多功能搜索和分析工具,涉及ncRNA关键词搜索,基于文献的功能搜索,miRNA-target搜索和在线分析,包括新的miRNA预测工具包,编码潜在计算器工具包,Blast工具和定制的UCSC基因组浏览器[80]。GREENC数据库是基于Wiki数据建立的,可作为植物lncRNA的注释和存档。该数据库于2015年开始提供有关lncRNA的序列,基因组坐标,编码潜力和折叠能量的信息。其中包含来自37种植物和6种藻类的超过19万份转录本的信息[81]。CANTATAdb数据库目前有45 117条lncRNA数据,来源于10个物种。提供序列、RNA-Seq文库中的表达值,基因组位置等信息[82]。而PLNlncRbase数据库是基于系列实验得到的lncRNA形成的数据库[83]。除了不断完善的数据库外,研究者们还开发了系列lncRNA的分析与预测工具,比如PhlyoCSF能够使用CSF评分来计算lncRNA编码潜力[84];CPS使用序列特征和SVM计算lncRNA的蛋白编码潜力[85];CNCI通过分析相邻核苷酸计算lncRNA的编码潜力[86];CPAT使用逻辑回归模型计算lncRNA的蛋白编码潜力,DeepLNC利用深度神经网络预测lncRNAs[87];iSeeRNA使用SVM算法预测lncRNAs[88]。LncRNATargets能够基于核酸热力学预测lncRNAs靶标[89]。

3 结语与展望

近年来调节转录和翻译的长链非编码RNA的不断发现,使基因组调节的全貌已发生了彻底改变。随着研究的不断深入以及相关理论技术的完善,发现植物中存在一系列特异lncRNA,其数量也在以惊人的速度增加。虽然目前已确定的lncRNAs很多,但对绝大部分lncRNA在生命活动过程中的具体调控机制及功能模式仍不清除。与哺乳动物lncRNA的研究报道相比,有关植物lncRNA的研究还比较落后,目前仅在拟南芥、水稻、小麦、玉米、黄瓜等中对lncRNA进行了初步的系统识别和功能研究,距离完全解释lncRNA的作用机制和生物学功能仍有较大距离。

生物信息学分析作为一种强有力的技术手段,在从实验设计到结果分析等各个层面发挥着不可替代的作用,既能够启迪研究人员设计阶段的预判以少走弯路,也可以从结果分析中挖掘大量的有用信息,起到事半功倍的作用。

总体上来说,目前植物lncRNA的研究还处于初级探索阶段,主要存在以下问题:(1)lncRNA数据库不够完善。与植物lncRNA相关的基因组和蛋白质组数据库寥寥无几;(2)lncRNA功能预测工具不多,针对 lncRNA的生物信息学工具少,难以对lncRNA二级结构等进行有效地预测, lncRNA作用机理还不清楚,应用研究领域有限;(3)整体上有关植物lncRNA的新研究方法和预测功能的工具不够,其功能研究的思路和技术不成熟,不能很好地注释lncRNA的调节机制和生物学功能,也不能系统深入地研究lncRNA。在未来的几年里,lncRNA表型的分析和解释将是生物信息学工作者的主要挑战。

表2 植物lncRNA数据库及预测工具Table 2 Databases and prediction tools of plant lncRNAs

针对以上问题,未来在植物中开展lncRNA的相关研究,首先需要不断完善和逐步建立有共同特征的长链非编码 RNA文库,它将有助于确认和预测非编码RNA的功能特征;其次需要通过生物信息学结合实验组学的方法深入阐明lncRNAs基因调控机制,挖掘新的植物lncRNAs,并探索其在植物生长发育、逆境胁迫、系统发育、品种改良等方面的功能及机制,这将对成功破解基因组的各种遗传信息,深入了解植物的生命代谢、系统发育等具有十分积极的意义。

猜你喜欢
信息学基因组编码
牛参考基因组中发现被忽视基因
鸡NRF1基因启动子区生物信息学分析
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
初论博物馆信息学的形成
Genome and healthcare
紫花白及基因组DNA提取方法的比较