5'UTR 在基因表达调控中的研究进展

2021-08-15 11:49杜芳芳马骏杰杨泽伟赵雪莲刘东宇杨秀芹
中国畜牧杂志 2021年8期
关键词:核糖体内含子密码子

杜芳芳,马骏杰,杨泽伟,赵雪莲,刘东宇,杨秀芹

(东北农业大学动物科学技术学院,黑龙江哈尔滨 150030)

基因表达是指通过转录和翻译等方式将基因内贮存的遗传信息转换为具有生物学功能的RNA、多肽和蛋白质的过程,是一个受到严格调控的生物学级联过程[1]。近年来,研究发现mRNA 5' 非翻译区(5'Untranslated Region,5'UTR)存在着重要的调控元件,包括内部核糖体进入位点(Internal Ribosome Entry Site,IRES)、5'UTR 二级结构、G-四聚体(G-quadruplexes,G4)、5'帽子结构、上游开放阅读框(Upstream Open Reading Frame,uORF)、Kozak 序列、上游起始密码子ATG(upstream ATG,uATG)和5'UTR 内含子(5'UTR introns,5UIs)等[2],5'UTR 对基因表达的调控涉及多个层面,对维持mRNA 的稳定性、核内运输、RNA 剪接和加工以及细胞增殖等皆有重要作用[3]。如5UIs 能够结合转录因子[4],对转录起始进行调控;当下比较热门的转基因技术就有一些通过uORF 对翻译水平进行微型调控[5]。此外,5'UTR 的核苷酸组成影响翻译起始,并且核苷酸之间可能存在着随机上位效应[6]。

近年来,在生物学领域,5'UTR 与micoRNAs 的相互作用及其在肿瘤免疫治疗中的影响、蛋白质组学分析UTR 肽在基因组中的翻译、以及5'UTR 双向启动子活性产生双链RNA 等研究引起广泛关注,但人们对5'UTR 的调控机制认识还不够充分。本文主要对5'UTR自身调控元件的作用机制及相关研究进展进行综述,以期为今后5'UTR 调控机理以及相关研究提供参考。

1 内部核糖体进入位点介导翻译起始

在绝大多数的真核细胞中,mRNA 的翻译起始依赖于m7Gcap 帽结构和核糖体扫描机制[3,7],这也是最经典的分子作用机制,主要过程:首先核糖体40S 小亚基与真核起始因子(Eukaryotic Initiation Factor,eIF)2、GTP和甲硫氨酰-tRNA 形成43S 预启动复合物(Preinitiation Complex,PIC);同 时PIC 在eIF4F 复合体(由eIF4G、eIF4A、eIF4E 构成)和eIF4B 等因子影响下与m7Gcap 帽结构结合,mRNA 在poly(A)结合蛋白(poly(A)-binding protein,PABP)和eIF4G 的相互作用下形成环状;然后PIC 从5' 方向开始扫描5'UTR 并寻找合适的起始密码子,PIC 转换为结构稳定的48S 复合体,60S 核糖体亚基加入复合物形成80S 核糖体亚基,至此翻译延伸开始(图1)。除此之外,有一些真核基因的翻译起始并不依赖m7Gcap 帽结构,即非帽依赖性翻译起始机制。这部分基因的mRNA 无m7Gcap 结构,核糖体的40S 小亚基通过识别IRES 与mRNA 的上游序列结合,或者直接与起始密码子结合,启动翻译[8]。

图1 真核帽依赖性翻译扫描机制模型[3,7]

1.1 IRES 介导病毒基因起始翻译 IRES 最初在脊髓灰质炎病毒RNA 和脑心肌炎病毒RNA 的5'UTR 中发现,随后真核基因也被鉴定出含有IRES 元件[8]。有研究者通过实验将微小核糖核酸病毒的IRES 连接到一个缺少5'帽子结构的环状RNA 上,该RNA 能够被正常翻译,证实了IRES 是除了经典的核糖体扫描机制以外具有起始翻译功能的结构[9]。

病毒RNA 的IRES 可以直接与宿主细胞的eIFs 或核糖体结合来起始自身翻译[10]。有些病毒在入侵后会通过清除eIF4G、eIF4A、eIF3 或使eIF4E 失活等方式来降低细胞mRNA 招募核糖体亚基的能力,导致宿主细胞的翻译能力降低,从而使病毒mRNA 更高效表达[11]。

根据与eIFs 和反式作用因子(IRES-transacting factors,ITAFs)的结合能力,病毒IRES 分为I~Ⅳ型4 类,分别以脊髓灰质炎病毒、脑心肌炎病毒、丙肝病毒和蟋蟀麻痹病毒为代表[12-13]。4 类IRES 的翻译启动机制相似,即募集核糖体亚基进行组装,但其招募核糖体的方式及促进翻译起始的蛋白质因子存在差异(表1)。

表1 病毒IRES 分类[13]

I 型IRES 和II 型IRES 均由5 个核心结构域组成,I 型IRES 包括结构域II~VI(图2-A),II 型IRES 包括结构域H-L(图2-B),这些结构域促进了IRES 与eIF4A、eIF4B、eIF4G 的相互作用;I 型和II 型IRES 的3'端均存在一段Yn-Xm-Aug 基序,即AUG 上游约20 nt处(Xm,10~20 nts)有一段嘧啶链(Yn,8~10 nts),该基序被认为是核糖体进入位点[14]。

I 型IRES 的结构域V 与eIF4G 结合,结构域VI中的一个保守的AUG 可以刺激43S 核糖体预起始复合物的附着,然后扫描到起始密码子并起始翻译;II 型IRES 的结构域J-K 提供eIF4G 的结合位点,但核糖体不扫描mRNA,直接将43S 复合物招募至起始密码子处[15]。尽管eIF4G 在I 型和II 型IRES 上的结合位点不同,但是两者的起始机制存在一个共同点:都是基于IRES 与eIF4G 的特异性相互作用——招募eIF4A,导致IRES 的3'端构象改变,有助于招募PIC 复合物[13]。

III 型IRES 有3 个结构域,命名为II、III、IV(图2-C),这些结构域在缺少m7Gcap 帽结构依赖的起始和扫描因子的前提下招募核糖体40S 小亚基并通过eIF2、eIF3、eIF5 和eIF5B 招募tRNA,直接在起始密码子处形成48S 复合体,随后GTP 水解、eIF 释放和60S 亚基加入在起始密码子处形成80S 核糖体并起始翻译[16]。

IV 型IRES 包 括3 个伪结(PKI、PKII 和PKIII)和多个茎环结构(图2-D),PKI 在40S 核糖体亚基A位点(解码中心)模拟tRNA 与mRNA 之间同源密码子-反密码子的相互作用,这种模拟允许IRES 招募1个60S 亚基,并从非ATG 起始密码子起始翻译[17]。IV型IRES 与核糖体的这种结合方式模拟了核糖体的易位状态,其介导的翻译过程无需IFs 和ITAFs 的参与,只需要延长因子(Elongation Factors,eEFs)将mRNA的第一个密码子带入A 位点起始翻译并进行多肽链的合成[18]。

图2 病毒IRES 4 种类型的二级结构[13-14,17]

有报道称,一些I 型IRES(如脊髓灰质炎病毒1 型、肠病毒7 型)可以从ORF 的5'上游起始翻译[19]。除此之外,蟋蟀麻痹病毒IRES 可以通过使用tRNA 模拟与细菌核糖体相互作用来启动翻译[20],这表明真核细胞和细菌之间的翻译起始的过程存在相似性。Arhab 等[21]研究发现,微小RNA 病毒的5'UTR 包括IRES 在内的结构,可以独立于基因组其他部分进化,主要表现为可以在基因组间移动并且多以表型重组的方式。病毒IRES 种类繁多且机制复杂、发病机制多样和细胞的特异性等因素是病毒进化的重要方面。

1.2 IRES 介导真核细胞起始翻译 一些真核细胞的mRNA 含有IRES,这些mRNA 在细胞增殖、分化、凋亡和有丝分裂等生理活动以及细胞缺氧、养分减少等应激条件下可以翻译产生蛋白质[22]。Dai 等[23]实验发现,血清饥饿期间,DNA 损伤结合蛋白2(DNA damagebinding protein 2,DDB2)的翻译水平增加,之后发现2 个顺反子之间插入DDB2的5'UTR 可以启动下游基因表达,证实了DDB2-5'UTR 具有IRES 活性。真核细胞具有IRES 活性的5'UTR 在结构上具有相似性,普遍比不含有IRES 的5'UTR 长且GC 含量高、拥有多个起始密码子以及复杂的二级结构,但并非满足这些条件的5'UTR 一定具有IRES 活性或者依赖其起始翻译[24-25],两者的关系不互通。与病毒相比,细胞IRES 的RNA序列结构少、保守性小且相似性较低,因此目前难以通过生物信息学方法预测内源性IRES。

真核细胞通常以单顺反子形式进行生命活动,但IRES 的功能常以多顺反子的形式体现。Kanamori 等[26]研究发现,来自于蚕的单一mRNA 编码了1 个昆虫细胞因子麻痹肽的前体和2 个新的细胞因子前体样蛋白uENF1 和uENF2,以萤火虫荧光素酶ORF 替换该mRNA 的3 个ORF,证实了这3 种蛋白均来自同一个mRNA 模板。此外,真核细胞IRES 对发育过程中的基因表达有着不可忽视的调控作用。有报道称,C-myc原癌基因IRES 在转基因小鼠胚胎发育过程中和成体组织中均有表达,但效率不同,其IRES 活性在胚胎发育过程中高于成体组织,因此可以推测细胞IRES 介导个体发育[27]。

目前的研究发现,IRES 元件起始的翻译过程与m7Gcap 帽结构依赖机制存在着许多相似之处,二者的影响因素可能一致,在今后的实验中可以以此为标准进行变量因素设计。

2 二级结构调控翻译起始

5'UTR 二级结构对基因的起始翻译有调控作用,尽管5'UTR 没有直接参与蛋白质的合成,但是碱基配对形成的茎环结构会影响核糖体亚基复合物的移动,阻碍核糖体的合成,从而抑制翻译起始[28]。通常借助RNAFOLD(http://rna.tbi.univie.ac.at)、MFOLD(http:// mfold.rna.albany.edu)、GEEBEE(http://www.genebee.msu.su)等软件,以GC 含量和最小自由能(Δ)G 为指标来预测5'UTR 二级结构。自由能的大小与GC 含量和碱基对数不呈正比关系,整体自由能越小的二级结构越稳定,越不利于翻译进行。但是在果蝇体内发现5'UTR 二级结构的稳定性高于其他区域[29],说明5'UTR 二级结构的稳定性与翻译起始效率不是绝对的反比关系。

G4 是由富含G 的RNA 或DNA 核苷酸序列形成的非典型二级结构,且RNA G4(RG4)的结构较被广泛研究的DNA G4 更加稳定[30]。RG4 广泛分布于premRNA、内含子、CDS 和UTR 内。有研究表明,人类某些基因启动子区域含有G4[31],这也从侧面说明了G4对基因表达有着调控作用。有关5'UTR 区域RG4 的报道大多与抑制翻译起始有关,推测可能是以阻碍43S 预启动复合物与mRNA 的结合或者减缓核糖体扫描速度的方式抑制翻译效率[32](图3)。Beaudoin 等[33]筛选出9 个可能存在G4 结构且编码不同蛋白质的基因,以基因突变的方式证明5'UTR-RG4 是一种翻译抑制物,并广泛分布在细胞中;随后,Bolduc 等[34]发现,人类UTR 区存在潜在的G4 结构,并且无论G4 结构的茎环位置和大小如何变化,G4 均存在翻译起始抑制的现象。

图3 RNA G-四聚体抑制翻译起始模式图[32]

但并不是所有RG4 均对翻译起始有抑制作用,人VEGF基因5'UTR-RG4 可提高翻译效率[35]。此外,RG4 还参与pre-mRNA 的形成及选择性剪接、mRNA的靶向等过程的调控,单核苷酸多态性也在一定程度上影响G4 的形成[36]。

3 uORF 和uATG 调控翻译效率

uORF 普遍存在于真核细胞中,uORF 在某些情况下可以被翻译成多肽,长度在1~100 个氨基酸,uORF序列可以完全包含在5'UTR 中,或者与CDS 区部分重叠,1 个基因可能有多个uORF。uORF 调控基因表达的方式是通过介导CDS 的翻译起始率进而调节蛋白质的产生,uORF 通常被认为是翻译抑制因子,但一些uORF 在环境压力的应激条件下会促进基因的表达,如小鼠ATF4基因5' 端存在2 个uORF,上游uORF1 可促进下游编码区的核糖体扫描和重新启动,而uORF2抑制下游基因表达:当非应激细胞中大量存在eIF2-GTP 时,uORF1 下游的核糖体在下一个阅读框uORF2重新启动;在应激条件下,eIF2 的磷酸化和eIF2-GTP水平的降低增加了核糖体重新启动的时间,这种延迟导致核糖体重新启动并越过uORF2 进行扫描,在编码区重新启动,致使小鼠ATF4基因的表达量增加[37]。研究发现,uORF 调控基因表达的方式一般为3 种:①核糖体扫描从5' 端的帽状结构开始,识别uORF 并进行翻译,之后核糖体解体释放到细胞质中,被其他mRNA招募并形成新的PIC 复合物,从而抑制下游主编码框(Main Open Reading Frame,mORF)的翻译效率[38];②uORF 被翻译形成的短肽导致核糖体在延伸过程中发生悬停,在空间上阻碍后面的核糖体使其无法向下游移动,导致mORF 翻译被抑制;③由于uORF 的存在,细胞识别出异常的mRNA,为保证生命活动正常进行,将模板mRNA 进行降解,即无义密码子介导的mRNA降解[39]。

尽管uORF 多以负调控的方式介导翻译,但是有研究发现存在一些机制可以规避这种现象。病毒以及一些植物的真核细胞以漏扫描和重新初始化这两种方式来避免下游mORF 翻译被抑制[40](图4、5):发生漏扫描时,40S 核糖体亚基越过uORF 的起始密码子,避免翻译uORF,之后40S 继续向下游扫描,当遇到mATG 时,60S 核糖体亚基被招募并形成80S 核糖体亚基,此时正常翻译mORF;重新初始化则是当uORF 被翻译后,核糖体解体并释放60S 核糖体亚基,40S 核糖体亚基继续向下游扫描,并在mATG 处再次形成80S 核糖体亚基。虽然这两种方式都可以回避uORF 的负调控,但是重新初始化不能解决uORF 和mORF 重叠带来的翻译抑制现象。

图4 漏扫描机制示意图[40]

uORF 的数量会影响翻译效率,且呈反比关系,uORF 的翻译抑制效率随着与mORF 之间的距离缩短而加强[41]。此外,uORF 调控基因表达还与自身的核苷酸序列组成相关并具有依赖性,读码框内的任何一个碱基突变都有可能改变下游mORF 翻译效率的抑制程度[42]。

图5 重新初始化机制示意图[40]

uATG 不一定是功能性翻译起始位点,当uATG 附近的序列不符合Kozak 规则或者由于二级结构的影响等情况时,uATG 的识别可能会失败[43]。翻译的起始一般是由ATG 启动的,但是存在一些uORF 翻译起始于非ATG 起始密码子[44]。在Radio 等[45]的研究中,将与CDS 重叠的uORF 区域的起始密码子突变为CUG、UUG、GUG、ACG、AUA 和AUU 等,然后对uORF的翻译能力进行分析并分别与uATG 起始的翻译效率和mORF 的翻译效率相比,发现起始效率高的密码子多以嘌呤碱基(A、G)为主,且uATG 起始活性低于mATG。

4 上游内含子调控基因转录

4.1 5'UTR 内含子的功能 内含子最突出的作用是可以被选择性剪接,进而产生不同功能的蛋白质,并且无论内含子处于在基因结构的哪个位置,均可以调控基因的表达并涉及到每一步,包括mRNA 的转录、翻译、定位以及衰变等过程[46]。大部分内含子位于编码区,少数位于5'UTR 和3'UTR,5'UTR 内含子长度大约是编码区内含子的2 倍,尽管3'UTR 比5'UTR 长,但仅有较少的3'UTR 包含内含子[47]。具有调控功能的基因多富集5'UTR 内含子,这种现象也反映了5UIs 有结合各种转录因子的特性,并且这些结合位点均位于第一内含子中[48]。5UIs 对基因的表达调控通常以影响上游启动子活性的方式,并对基因表达有促进作用,如拟南芥启动子近端内含子可以增强下游基因的表达,水稻rubi3基因的5UIs 提高了基因的转录水平、mRNA 的稳定性以及翻译效率,证明植物内含子具有促进转录的作用[49-50]。

除此之外,5UIs 的表达调控还具有组织特异性。Shi 等[51]鉴定了甜橙基因5UIs 的序列大小和核苷酸分布特征,发现甜橙DUF247基因含有1 个5UI,5UI 在叶片和茎中的表达显著高于根部,这为今后研究5UIs对基因表达调控的机制提供了参考。

5UIs 存在丰富的剪接位点,富集A/T 碱基有助于剪接位点的识别,并且这些序列趋向于结合RNA 结合蛋白并与转录因子相互作用,调控uATG 起始翻译;但并不是所有的5UIs 均为富A/T 区,存在部分基因以富集碱基C 为剪接识别位点[4]。包含5UIs 的启动子活性高于缺失5UIs 的启动子,且具有更强的基因表达和产物积累,这也证明了5UIs 参与了转录水平和转录后水平的调控[52]。

4.2 5'UTR 内含子的位置对基因表达的调控 内含子的起始转录能力取决于与启动子的距离,同一内含子在同一基因的不同位置具有不同的起始转录效率。内含子的位置会影响其转录及转录后调控能力。以拟南芥MHX基因为例:当5UIs 位于mATG 的5'端时,在剪接率很高的前提下,下游基因的翻译水平依然很强;当5UIs 位于mATG 的3'端时,下游基因的翻译能力明显下降,并且由于5UIs 位置的下移,mRNA 的转录量略微下降[53]。此外,内含子上含有丰富的核内小RNA 作用位点,当5UIs 位于启动子较远位置时,不利于pre-mRNA 形成剪接体,抑制转录的进行并导致翻译效率降低[54]。

5 小结与展望

基因表达主要涉及到转录调控、转录后调控、翻译调控和翻译后调控4 个层面,其影响因子主要包括编码序列和UTR 的长度、核苷酸组成和结构、ATG 附近的序列是否符合Kozak 规则、uORF 的存在、miRNA 的可能靶位点、密码子用法、氨基酸组成和蛋白质降解信号等,基因表达的起始过程是研究调控机制的关键。5'UTR 在转录及翻译水平的调控主要体现在细胞增殖、分化、生长发育、凋亡和应激条件下生命活动的正常进行,并且在研究肿瘤发生过程、癌症的作用机理中发挥重要的作用,引起了研究者的广泛关注。

目前对5'UTR 的调控机制研究还不够成熟,有待深入研究:①病毒IRES 介导帽无关翻译的机制研究得比较全面,细胞IRES 的作用机制仍然需要更多更有力的证据,并且目前研究细胞IRES 的工具种类较少,需要更加先进的软件及设备去分析;②如何才能更好去分析mRNA 的高级结构,尽管目前的工具可以分析细胞内部几乎全部的RNA 结构,但是对5'UTR 的高级结构研究还不够透彻,如cyclind1基因5'UTR 的相关RNA结构尚不明晰;③有关5'UTR 与mRNA 二级结构的稳定性的报道较少,mRNA 二级结构的稳定性不一致的原因尚不清楚,未来可以将mRNA 二级结构的稳定性是否存在种间差异以及二级结构稳定性与基因表达的关系作为研究热点;④uORF 存在选择性剪接现象,但对于这些现象的产生以及对翻译水平造成的影响研究得还不够全面,可以从转录组学、核糖体谱和蛋白质组学等方面进行综合分析。

猜你喜欢
核糖体内含子密码子
核糖体成熟因子RimP、Era和RimJ的研究进展
核糖体相关质量控制与核糖体自噬研究进展*
紫九牛叶绿体基因组密码子偏好性分析
降低核糖体蛋白质翻译功能对延缓衰老具有重要作用
基因内含子遗传变异与鸭蛋壳品质关联性分析
苹果ANR基因沉默的原因分析
新型密码子、反密码子、氨基酸对应盘
环状RNA及其生物学功能概述
对“翻译”过程中几个问题的探讨
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析