基于RNA测序的SMN1基因缺失型脊髓性肌肉萎缩症的可变剪接差异性分析*

2021-12-16 02:26林炎鸿张梦雅
国际检验医学杂志 2021年23期
关键词:泛素线粒体测序

林炎鸿,张梦雅,曾 健△

1.厦门大学附属东方医院(联勤保障部队第九〇〇医院)基础医学实验室/福建省移植生物学重点实验室,福建福州350025;2.福建医科大学福总临床医学院(联勤保障部队第九〇〇医院)基础医学实验室,福建福州 350025

儿童进行性脊髓性肌肉萎缩症(SMA)是一种以脊髓前角运动神经元退行性病变为主要特征的常染色体隐性遗传病,该病的疾病基因为运动神经元生存基因1(SMN1),位于5号染色体长臂1区3带,含9个外显子(1、2a、2b、3~8)。修饰基因SMN2与SMN1高度同源:在编码区只有1个碱基的差别[1]。有研究表明,约95%的SMA患者SMN1基因存在纯合性缺失[1]。全长SMN蛋白由294个氨基酸残基组成,其相对分子质量为38×103,主要由SMN1基因编码。SMA患者的临床严重程度与SMN蛋白水平存在密切相关性。有研究表明,SMN蛋白在真核生物中广泛表达,并参与了多种细胞的生物学过程[1]。最早并被深入研究的是SMN蛋白在小核核糖核蛋白(snRNP)组装过程中的功能。snRNP的正确组装是RNA剪接复合体形成的必要前提。然而,关于SMN蛋白依赖的snRNP的组装及剪接缺陷是否与SMA的表型相关仍不清楚。另外,有研究发现,在小鼠和斑马鱼的SMA模型中,部分基因发生了剪接异常[2-3]。SMN蛋白缺陷是否会引起广泛性的剪接异常或造成某些关键基因或重要信号通路的可变剪接异常,从而导致SMA发生?本文通过分析SMN1基因纯合性缺失型患者与SMN1基因拷贝数正常对照组外周血淋巴细胞表达谱,初步研究SMN蛋白对相关基因可变剪接的影响,并分析差异可变剪接参与的生物学过程及代谢通路,为全面了解SMN蛋白的生理功能和SMA的发病机制提供线索。

1 资料与方法

1.1一般资料 SMA患者组5 例(BR1、 BR2、BR3、BR4、 BR5),其中男4例,女1例,年龄1 ~ 23岁。SMA患者纳入标准:(1)符合SMA临床诊断标准;(2)SMN1基因检测结果显示纯合性缺失。正常对照组5例(ZC1、ZC2、ZC3、ZC4、ZC5),纳入标准为SMN1基因拷贝数为2。采用Trizol(美国 Invitrogen 公司)法提取总 RNA,-80 ℃冰箱保存,用于后续RNA测序。样品交由基于Illumina测序平台的北京诺禾致源科技股份有限公司进行建库和测序。本研究通过联勤保障部队第九〇〇医院医学伦理委员会批准,取材前受试者或其监护人均签署知情同意书。

1.2差异可变剪接的识别 对测序获得的原始序列数据进行过滤,即去除少量带有测序接头、去除含N(N表示无法确定碱基信息)及测序质量较低的reads,再检查测序错误率及GC含量分布情况,以获得后续分析所需要的clean reads。使用HISAT2软件将clean reads与参考基因组进行快速精确的比对,获取clean reads在参考基因组上的定位信息[4],通过分析比对结果,寻找外显子间的结合位点。对RNA-seq的基因表达值先后对测序深度和基因长度进行校正,并用FPKM表示。使用rMATS软件对可变剪接事件进行相关定量及差异分析,对有生物学重复的样品行差异可变剪接分析[5]。每个可变剪接事件分别对应2个剪接异构体,分别对其进行表达量统计,并通过校正得到表达量,然后再计算外显子保留剪接体在2个剪接体总表达量中的比值,比值即为结果文件中的患者组和正常对照组,最后行差异显著性分析(FDR<0.05),从而筛选新引入和缺失的可变剪接。

1.3可变剪接显著差异基因的基因功能(GO)和代谢通路(KEGG)分析 主要分析外显子跳跃(SE)和内含子保留(RI)剪接变异事件。采用clusterProfiler软件对差异显著的SE和RI基因行GO和KEGG富集分析注释[6],以发现相关基因参与的生物学过程和代谢通路。

1.4统计学处理 先对原始read count进行标准化和对测序深度的校正,然后通过统计学模型等方法行多重假设检验校正,得到FDR值。GO富集和KEGG富集均以P< 0.05作为为差异富集的阈值。

2 结 果

根据各样本所有基因的FPKM值计算组内及组间样本的相关系数(r2),结果显示,组内样本间的r2均大于0.9(图1),提示实验的生物学重复性满足后续的分析要求。

2.1差异可变剪接基因的识别 发生SE类型可变剪接事件的基因数为11 677个,其中显著性差异基因数为218个(FDR<0.05);发生RI类型可变剪接事件的基因数为2 576个,其中显著性差异基因数为54个(FDR<0.05)。

2.2显著差异可变剪接的GO注释 差异SE基因的GO 注释主要富集于核糖核蛋白复合物生物发生、各类RNA(如ncRNA、mRNA、rRNA)的处理、剪接和代谢过程及核转运的生物过程;细胞组分的定位主要在核孔、中心体、各类运输泡膜、剪接体复合物和线粒体基质中;其主要分子功能为RNA/DNA催化活性、泛素相关酶活性及核糖核蛋白复合物结合活性(图2)。以上数据提示SMN蛋白对SE基因可变剪接的影响主要存在4个方面:(1)核糖核蛋白组装;(2)胞内转运和翻译;(3)线粒体稳态维持;(4)与泛素-降解通路。图3显示差异RI基因主要富集的生物学过程为基因表达的调节、泛素依赖蛋白分解调控及乙酰化调控等生物过程。细胞组分的定位主要在囊泡膜和蛋白乙酰转移酶复合物等,其主要分子功能为蛋白激酶B结合活性、泛素特异性蛋白酶/水解酶/连接酶活性和氧化还原酶活性等。以上数据提示SMN蛋白对RI基因可变剪接的影响主要存在4个方面:(1)蛋白/氨基酸乙酰化调控;(2)泛素-降解通路;(3)基因表达;(4)与线粒体稳态维持。

注:图中横、纵坐标为各样本相关系数的平方(r2)。

注:图中纵坐标为GO注释的事件,横坐标为GO Term富集的显著性水平,用log10(padj)表示,不同的灰度分别表示不同的功能分类。

注:图中纵坐标为GO注释的事件,横坐标为GO Term富集的显著性水平,用log10(padj)表示,不同的灰度分别表示不同的功能分类。

2.3差异可变剪接的代谢通路分析 结果分析显示,差异SE基因主要富集在Apelin信号通路、自噬、剪接体和腺苷酸激活蛋白激酶(AMPK)信号通路。富集在剪接体代谢通路中的有丝氨酸/富含精氨酸的剪接因子SRSF1和SRSF7,广泛参与剪接过程的活化。SRSF1基因位于17号染色体上,与正常对照组比较,患者组样本中该基因在基因组负链坐标58005801至58005041的区域出现了差异剪接,即SE,该剪接事件呈现显著性增加。SRSF7基因位于2号染色体上,与正常对照组比较,患者组样本中该基因在基因组负链坐标38747062至38746747的内含子区域出现了差异剪接,即患者组主要是以该区域内含子剪接方式为主,而正常对照组在该基因中则是以基因组负链坐标38748056至38746747的区域SE剪接模式为主,两组呈现显著性差异。富集在Apelin信号通路、自噬和AMPK信号通路上的磷脂酰肌醇激酶相关激酶家族有MTOR基因,主要参与细胞生长、分化、增殖和自噬等。MTOR基因位于1号染色体上,与正常对照组比较,患者组样本中该基因在基因组负链坐标11258485至11256192的区域出现了差异剪接,即SE,在基因组负链坐标11256933至11256192的区域出现了剪接事件显著性增加。富集在自噬通路上的还有BECN1基因,主要参与自噬的调节,在发育、肿瘤发生和神经退行性变中起重要作用。BECN1基因位于17号染色体上,与正常对照组比较,患者组样本中该基因在基因组负链坐标42814524至42810928的区域出现了差异剪接,即SE,该剪接事件呈现显著性增加。 差异RI基因主要富集的通路在剪接体代谢和泛素化通路。富集在剪接体代谢通路中的SRSF1和SRSF5,后者参与特异基因的可变剪接调控,进而参与细胞凋亡等多种生理过程。

3 讨 论

SMN1基因缺失引起的SMN蛋白缺乏是导致SMA的直接原因。SMN蛋白在真核生物的组织和细胞中广泛表达,作为核糖核蛋白复合物的重要组成部分,在剪接体的组装和核糖核酸蛋白的生物发生过程中发挥关键作用。近年有研究提示,SMN蛋白可能还参与了其他重要的生理过程,包括mRNA的翻译和局部翻译、细胞骨架动力学、内吞和自噬等[7]。本研究基于RNA 测序对患者组与正常对照组外周血淋巴细胞表达谱进行可变剪接分析,结果提示,SMN1基因缺失能够改变部分基因的可变剪接,进而影响相关蛋白的合成、组装和降解,最终导致蛋白稳态失衡。基于本研究数据,SMN蛋白在蛋白稳态维持中的功能主要体现在snRNP组装与RNA剪接、mRNA的定位和翻译、生物能量和线粒体稳态、自噬、泛素依赖的降解通路,以及调节代谢通路及代谢酶活性乙酰化修饰。

有研究表明,SMN蛋白通过与Gemin 2~8和Unrip等8个蛋白紧密结合,形成一个大分子复合物,即SMN复合体,定位在细胞质和胞浆中[7]。SMN复合体在snRNP的组装和核内运输过程中充当分子开关的角色,进而在后续的剪接体组装和RNA剪接中发挥重要作用[8]。本研究通过可变剪接分析筛选出显著差异SE事件与核糖核蛋白复合物生物发生、RNA剪接及核转运的生物过程有关的主要基因有SRSF1、SRSF5。其中SRSF1编码富含精氨酸/丝氨酸的剪接因子蛋白家族成员,该蛋白的磷酸化状态和与它相互作用的蛋白决定了是可以激活还是抑制剪接。SRSF5编码的蛋白是富含丝氨酸/精氨酸的前mRNA剪接因子家族成员,该家族构成剪接体的一部分,这些因子中的每一个都包含一个用于结合RNA的RNA识别基序和一个用于结合其他蛋白质的RS结构域。RS结构域富含丝氨酸和精氨酸残基,促进不同精氨酸剪接因子之间的相互作用。除了对mRNA剪接起关键作用外,精氨酸蛋白还被证明参与了核内mRNA的输出和翻译,这些数据提示SMN蛋白对SE可变剪接基因的影响更多地集中在snRNP和剪接体的组装调控过程。

近年来的研究显示,SMN蛋白还与mRNA结合蛋白相互作用,并促进它们组装成mRNP运输颗粒[8],进而调节mRNA的定位和局部翻译[9-10]。同时有研究还发现,SMN蛋白也存在于轴突和树突中,在神经元发育或修复过程中对神经元mRNA-蛋白质复合体的形成有重要作用[11]。本研究的差异可变剪接数据也提示,SMN蛋白的缺失可影响mRNA的加工代谢和核糖体的生物合成过程,主要差异基因包括MTOR、TCS1、SRSF1等,其中MTOR基因是一个重要的真核细胞信号基因,编码的蛋白属于磷脂酰肌醇激酶相关激酶家族,该信号参与免疫抑制,影响转录和蛋白质合成,进而调节细胞的生长、凋亡和自噬等[12]。体内试验提示,在小鼠模型来源的神经元和患病者来源的成纤维细胞中SMN蛋白可能通过mTOR信号通路调控局部蛋白的合成[13]。TSC1基因编码生长抑制蛋白Hamartin,该蛋白与GTPase激活蛋白tuberin相互作用并稳定,负性调节哺乳动物雷帕霉素复合体靶点1(mTORC1)信号,从而阻止相关激酶的泛素化和蛋白酶体降解[14]。结合文献报道及本研究数据推测,SMN蛋白可能通过以下几种机制调控蛋白翻译:(1)神经元中mRNA的亚细胞定位;(2)与核糖体的结合进而控制局部翻译所需的核糖体单位;(3)mTOR信号的调控。对于SMN蛋白如何通过mTOR的信号调控从而在SMA的发生中发挥作用,亟待进一步深入研究。

除了上述snRNP 组装、mRNA的定位和翻译等蛋白合成通路外,蛋白清除/降解通路也是蛋白稳态维持的重要机制。真核生物的蛋白降解清除机制主要有两种途径,即泛素依赖的蛋白酶体系统/溶酶体蛋白水解及自噬。本研究SMN蛋白对SE和RI可变剪接影响均指向自噬和泛素-降解通路,这些基因包括GABARAPL1、BECN1等,其中GABARAPL1基因是雌激素诱导的早期基因,编码从线虫到人类高度保守的蛋白质,是正常自噬通量所必需的[15]。BECN1基因位于染色体17q21上,参与自噬的调节,在发育、肿瘤发生和神经退行性变中起重要作用[16-17]。

本研究还提示,SMN蛋白的缺失影响了线粒体稳态维持和能量代谢相关的基因可变剪接,主要基因有GABARAPL1、MCL1,其中GABARAPL1基因也参与细胞能量代谢的调控,包括基础耗氧速率、细胞内三磷酸腺苷、总谷胱甘肽和受损线粒体积聚等[15]。MCL1基因是在人髓系白血病细胞系分化过程中发现的早期诱导基因,可能通过不同的剪接机制和所产生的基因产物的相互作用来调节细胞生长状态[18]。近期有研究提示,在SMN蛋白缺失的小鼠模型中神经元的线粒体功能缺陷,包括线粒体代谢的基础和最大呼吸指标异常、受损的线粒体膜容受性、线粒体动力学异常改变等[19]。当然SMN蛋白在线粒体稳态维持和能量代谢中的作用机制还需进一步阐明。

本研究发现,SMN1基因的缺失可导致乙酰化修饰相关的基因发生RI可变剪接差异。乙酰化是改变蛋白功能最主要的修饰方式之一。目前有研究提示,乙酰化修饰功能除了影响细胞染色体结构及对核内转录调控因子的激活方面外,还参与调节代谢通路及代谢酶的活性[20],为SMA的发病机制提供了新的线索。

本研究通过对SMN1基因缺失型SMA患者外周血淋巴细胞的可变剪接分析提示,SMN蛋白缺陷能够改变部分基因的可变剪接,这些基因主要参与snRNP组装与RNA剪接、mRNA的定位和翻译、生物能量和线粒体稳态、自噬、泛素依赖的降解通路,以及调节代谢通路及代谢酶活性乙酰化修饰,进而影响相关蛋白的合成、组装和降解,最终导致蛋白稳态失衡,为SMA的发病机制提供新的线索。下一步将通过体外和体内试验对其中关键基因的生物学功能进行深入研究,以期有新的发现。

猜你喜欢
泛素线粒体测序
特发性肺纤维化中的线粒体质量控制
泛素-蛋白酶体系统在食管鳞状细胞癌发生发展中的作用
两种高通量测序平台应用于不同SARS-CoV-2变异株的对比研究
三氯乙烯致L-02细胞毒性中SET蛋白介导的组蛋白泛素化及类泛素化修饰鉴定
线粒体自噬在纤维化疾病中作用的研究进展
泛素链的体外制备、磷酸化修饰与标记方法
宏基因组测序辅助诊断原发性肺隐球菌
线粒体自噬在蛛网膜下腔出血中的研究进展
微小核糖核酸-1205沉默Cullin-RING泛素E3连接酶4A激活AMPK信号传导保护人成骨细胞免受地塞米松损伤的研究
生物测序走在前