陆地棉TCP家族基因鉴定及组织表达分析

2023-12-18 09:27胡文冉邵武奎黄全生
新疆农业科学 2023年11期
关键词:进化树残基外显子

胡文冉,赵 准,邵武奎,黄全生

(新疆农业科学院核技术生物技术研究所/新疆农作物生物技术重点实验室,乌鲁木齐 830091)

0 引 言

【研究意义】作为植物中的一种重要转录因子,TCP蛋白参与调控植物生长发育进程。TCP家族成员已经在玉米[1]、小麦[2]、拟南芥[3,4]、棉花[5]、水稻[6-8]等多个作物或植物中被鉴定出来。陆地棉(GossypiumhirsutumL.)是我国主要的栽培棉种,种植面积占棉花总种植面积90%以上[9],研究陆地棉TCP家族基因,找出调控陆地棉株型、纤维品质等性状的关键基因,对于棉花生产具有重要意义。【前人研究进展】TCP(teosinte branched1/cycloidea/proliferating cell factors)蛋白是植物特有的转录因子家族,最早发现的TCP家族成员包括玉米teosinte branched 1(TB1)基因、金鱼草cycloidea(CYC)基因和水稻proliferrating cell factors1和2(PCF1/2)基因,TCP基因家族名称取自于该3个成员的英文缩写首字母。TCP家族都含有非典型的碱基螺旋-环-螺旋(bHLH)结构。根据氨基酸序列的差异,TCP转录因子可被分为Class ITCP和Class ⅡTCP2个亚家族。Class Ⅱ的TCP结构域包含59个氨基酸,而Class I的TCP结构域包含55个氨基酸,相较与Class Ⅱ在其碱性区域缺失4个氨基酸残基。其中Class ITCP以水稻中的PCF1与PCF2为代表;Class ⅡTCP以CYC与TB1为代表[6-9]。两个亚家族之间的主要区别体现在核定位序列(NLS)的位置、bHLH结构域中第2个螺旋的长度以及bHLH结构域外是否含有1个功能未知的精氨酸富集R结构域[10]。Class I成员中都不含有R结构域[3,10]。Class Ⅱ TCP可依据TCP结构域内序列的差异进一步分为CYC/TB1类TCP与CINCINNATA(CIN)类TCP2个亚类[10]。目前已研究的物种中均同时具有Class ITCP和Class ⅡTCP2个亚家族成员。【本研究切入点】在棉花中已经发现了许多TCP转录因子,参与纤维发育、株型分支、非生物胁迫响应等过程[11-17]。韩利红[18]对四倍体陆地棉分析后得到了74个非冗余的GhTCP基因,不同的TCP基因在棉花各个器官和纤维发育的不同时期存在明显的差异表达,其在棉花生长发育过程中具有关键作用。利用2019年最新组装的陆地棉参考基因组[19],有文献对拟南芥TCP基因的类型基因ID代表的基因名称及其在植物体内的功能进行了研究,例如基因类型Class I:AT5G41030.1(TCP6,在花器官中尤其是花粉中表达[20]);AT5G23280.1(TCP7,参与叶片发育[21]、开花时间的正调控[22]);AT1G58100.1(TCP8,参与叶片发育[21]);AT2G45680.1(TCP9,参与叶片发育[23]);AT2G37000.1(TCP11,参与花粉发育[24]、昼夜节律[25]、维管束后生木质部导管分子的分化和形成[26]);AT3G47620.1(TCP14,参与植物防御进程[27]、控制发育叶片、特殊花器官、幼嫩节间细胞增殖,调控拟南芥节间和叶形发育[28-29]);AT1G69690.1(TCP15,参与昼夜节律[25]、植物防御进程[26]、非生物胁迫[30]、控制发育叶片、特殊花器官、幼嫩节间细胞增殖、拟南芥节间和叶形发育[28,31-33]);AT3G45150.1(TCP16,在花粉发育早期发挥作用,参与雄性配子发育[34]);AT5G51910.1(TCP19,参与植物防御进程[27]);AT3G27010.1(TCP20,参与调控植物生长及与发育相关基因的调控[22,35]);AT5G08330.1(TCP21,参与昼夜节律[36]、生物胁迫[27]);AT1G72010.1(TCP22,负调控叶片衰老[32]、叶片发育[21]);AT1G35560.1(TCP23,参与叶片发育[21])。基因类型Class Ⅱ:AT1G67260.1(TCP1,参与花发育[37]、结合油菜素内酯合成关键基因促进植物生长[38-39]);AT1G68800.1(TCP12,参与分枝发育调控过程[40]);AT3G18550.1(TCP18,参与分枝发育调控过程[40]);AT4G18390.1(TCP2,参与叶发育[41-42]、昼夜节律[25]);AT1G53230.1(TCP3,参与叶发育[41]、昼夜节律[25]、调控器官发育相关基因的表达[43]);AT3G15030.1(TCP4,控制细胞分裂分化,参与叶发育[41,44]、早期胚胎发育[45]、抑制叶绿素合成[46]);AT5G60970.1(TCP5,参与叶发育[41]、调控植物的避荫反应[47]、热形态建成[48]);AT2G31070.1(TCP10,参与叶发育[41]);AT3G02150.2(TCP13,参与叶发育[41]、植物防御进程[27]、调控植物的避荫反应[47]、热形态建成[48]);AT5G08070.1(TCP17,参与叶发育[41]、在光信号通路和生长素调控下胚轴伸长过程中起连接因子的作用[49]、调控植物的避荫反应[47]、热形态建成[48]);AT1G30210.1(TCP24,参与叶发育[41])。有关陆地棉TCP家族基因鉴定及组织表达分析文献较少。需鉴定、分析陆地棉TCP家族基因。【拟解决的关键问题】基于2019年最新组装的陆地棉TM-1参考基因组,利用生物信息学手段对该家族基因进行染色体定位、多序列比对聚类分析、保守基序motif预测、基因结构鉴定和TCP基因组织特异性表达分析,鉴定与陆地棉生长发育相关的TCP基因,为揭示棉花产量、品质等重要性状的遗传调控机制及棉花分子育种提供基因资源和理论依据。

1 材料与方法

1.1 材 料

1.1.1 陆地棉TCP基因家族成员鉴定

陆地棉全基因组蛋白序列数据来自于CottonFGD网站(https://cottonfgd.net/about/download.html)[50],TCP家族HMM模型文件(PF03634)来自于Pfam网站(https://pfam.xfam.org/)[51],使用HMMER网站(http://www.hmmer.org/)[52]鉴定陆地棉TCP家族基因,设定阈值E<1e-5。利用SMART网站(http://smart.embl-heidelberg.de/)[53]确认所鉴定的TCP基因编码蛋白的保守结构域。

1.1.2TCP基因家族成员系统进化树构建

分别通过TAIR网站和基因组注释信息获得拟南芥和水稻TCP蛋白序列,并利用Pfam网站确认所获得拟南芥和水稻TCP蛋白含有的结构域[54]。用Clustal Omega 网站(https://www.ebi.ac.uk/Tools/msa/clustalo/)将棉花TCP蛋白序列与已经分型的拟南芥和水稻TCP蛋白进行序列比对分析,利用软件MEGA 7.0[55]构建TCP基因家族成员系统进化树。利用在线Evolview网站(http://www.evolgenius.info/evolview)美化构建的系统进化树。

1.2 方 法

1.2.1 陆地棉TCP基因家族成员染色体定位、保守基序(motif)预测及基因结构

1.2.1.1 染色体定位

从CottonFGD网站(https://cottonfgd.net/jbrowse/)[50]获取陆地棉TCP家族基因物理位置信息,TBtools软件[56]绘制陆地棉TCP基因在染色体上的位置图。

1.2.1.2 保守基序(motif)预测

使用MEME在线工具(http://meme-suite.org/)[57]进行保守基序motif预测,将motif最大发现数设定为5。

1.2.1.3 基因结构

利用CottonFGD网站(https://cottonfgd.net/about/download.html)获取TCP基因结构注释gff3文件。

运用TBtools可视化motif及基因结构分析结果。

1.2.2TCP基因组织特异性表达

从Cotton Omics Database网站(http://cotton.zju.edu.cn/2.search_gene_locus.php) 获得陆地棉标准系TM-1根、茎、叶、花托、雌蕊、雄蕊、花萼、花瓣、开花后5 d纤维、10 d纤维、20 d纤维以及25 d纤维共12个棉花组织的表达水平的RNA-seq数据标准化FPKM值[58]。运用TBtools软件获得TCP基因在陆地棉不同组织中的表达模式热图。

2 结果与分析

2.1 陆地棉TCP家族基因鉴定

研究表明,利用最新组装的陆地棉TM-1参考基因组,最终鉴定到63个陆地棉TCP基因家族成员。筛选24个拟南芥TCP蛋白序列,其中:13个Class I型,11个Class Ⅱ型,其中CIN型8个,CYC/TB1型3个;22个水稻TCP蛋白序列,其中:10个Class I型,12个Class Ⅱ型,其中CIN型9个,CYC/TB1型3个。拟南芥、水稻和陆地棉TCP蛋白系统进化树显示陆地棉63个TCP蛋白共被分为2个亚家族:Class I和Class Ⅱ,其中TCP Class I类有39个,TCP Class Ⅱ类24个,二者数量均稍高于拟南芥和水稻中TCP Class I和TCP Class Ⅱ蛋白数量。图1,表1

表1 拟南芥、水稻和陆地棉TCP蛋白质数目比较

陆地棉63个TCP基因家族成员中,Class I型TCP基因39个,占61.9%;Class Ⅱ型TCP基因共24个,包括7个CYC/TB1型和17个CIN型TCP基因,占38.1%。97.4%的Class I型TCP基因具有1个外显子,GH_A08G2037.1编码蛋白质最小包含150个氨基酸残基,GH_A01G1976.1编码蛋白质最大包含550个氨基酸残基;Class I型TCP基因GH_A13G0787.1具有2个外显子,编码蛋白质包含353个氨基酸残基。3个CYC/TB1型TCP基因各含有1个外显子,编码白质长度分别为367个氨基酸残基(GH_A12G2854.1)和501氨基酸残基(GH_A12G1898.1、GH_D12G1898.1);4个CYC/TB1型TCP基因各含有2个外显子,编码白质长度从325个氨基酸残基(GH_D11G0067.1)到414个氨基酸残基(GH_A07G1909.1);82.4%的CIN型TCP基因含有1个外显子,所编码蛋白质长度分布在285(GH_A09G0092.1)~463氨基酸残基(GH_D10G0461.1和GH_A10G0437.1),3个CIN型TCP基因各含有2个外显子,编码白质长度分别为266个氨基酸残基(GH_D07G0752.1、GH_A07G0756.1)和451氨基酸残基(GH_D05G3657.1);陆地棉TCP基因具有1~2个外显子,TCP基因外显子数目比较保守;相对于Class I型TCP基因,Class Ⅱ型TCP基因编码蛋白质长度相对比较保守。表2

图 1 拟南芥、水稻、陆地棉TCP家族成员的系统进化

表2 陆地棉TCP基因外显子数量及蛋白质长度

2.2 TCP基因在染色体上的位置

研究表明,鉴定得到的63个TCP基因的物理位置信息,33个TCP基因分布在A组染色体上,30个TCP基因分布在D组染色体。除了A02、A06、D03和D06染色体,Class I型TCP基因在其余22条染色体上均有分布,在染色体A01、A03、A04、A08和A10上各有1个;在染色体A05、A07、A09、A11和A13上各有2个;在染色体D01、D02、D05、D08、D10和D11上各有1个;在染色体D04、D07、D09和D13上各有2个,在第12条染色体上,A组和D组染色体分布较多,均有5个基因分布。CIN型TCP基因在染色体A01、A04、A07、A09、A10、A12、A13、D01、D04、D07、D10、D12和D13上各有1个;均有2个基因在染色体A05和D05上分布。CYC/TB1型TCP基因在染色体A07、A11和D11上各分布1个,均有2个CYC/TB1型TCP基因在A12和D12染色体上分布。图2

图2 TCP基因在陆地棉染色体上的分布

2.3 TCP家族成员的保守基序(motif)预测、基因结构

研究表明,陆地棉63个TCP家族中,所有成员均具有TCP结构域。其中39个Class I型TCP基因所编码蛋白均含有TCP结构域(motif 1)。Class Ⅱ型TCP编码蛋白中,17个CIN蛋白均含有TCP结构域(motif 6和motif 8);7个CYC/TB1型蛋白均含有TCP结构域(motif 11)。

Class I型基因中GH_A13G0787.1包含2个外显子,其余38个Class I型基因均有1个外显子。Class Ⅱ型基因中,3个CIN型基因(GH_D05G3657.1、GH_D07G0752.1和GH_A07G0756.1)包含2个外显子,其余14个基因均有1个外显子;3个CYC/TB1型基因GH_A12G1898.1、GH_D12G1898.1、GH_A12G2854.1均含有1个外显子,4个CYC/TB1型基因GH_A07G1909.1、GH_A11G0062.1、GH_D11G0067.1、GH_D12G2879.1各含有2个外显子。Class I型TCP基因各亚族间最明显的区别是基因长度的差异,其中GH_A13G0787.1长度超过7 000 bp(base pair,碱基对),其余基因均在500~2 000 bp;Class Ⅱ型基因中,CIN型基因长度在850~1 500 bp,CYC/TB1型基因长度在1 000~1500 bp。图3,图4

注:a.Class I TCP 型基因进化树;b.Class I TCP 型蛋白motif预测结果;c.Class I TCP 型蛋白结构域;d.Class I TCP型基因结构

注:A.陆地棉CIN型基因进化树、蛋白motif预测结果、蛋白结构域及基因结构;B.陆地棉CYC/TB1型基因进化树、蛋白motif预测结果、蛋白结构域及基因结构。a.CIN型基因进化树;b.CIN型蛋白motif预测结果;c.CIN型蛋白结构域;d.CIN型基因结构;e.CYC/TB1型基因进化树;f.CYC/TB1型蛋白motif预测结果;g.CYC/TB1型蛋白结构域;h.CYC/TB1型基因结构

2.4 陆地棉TCP基因组织特异性表达

研究表明,将Class I型TCP基因分为11类,第1、2、6、7类基因主要在陆地棉纤维中表达,第3、4、11类基因主要在陆地棉营养器官:茎、叶中表达,第5、8、9、10类基因主要在陆地棉花器官:花托、雌蕊、萼片中表达。Class Ⅱ型TCP基因分为8类,第1、2、3、4、5、7、8类基因主要在陆地棉花器官:萼片、花瓣、花托、雌蕊中表达,第6类基因主要在陆地棉根中表达。Class I型TCP基因主要在陆地棉营养器官、花器官和纤维发育初期表达;Class Ⅱ型TCP基因主要在陆地棉根和花器官中表达。图5

注:A:Class I型TCP基因在陆地棉不同组织中的表达;B:Class Ⅱ型TCP基因在陆地棉不同组织中的表达;右侧标尺数值范围代表均一化后表达量的变化范围;红色为高表达,蓝色为低表达,白色为缺失值

3 讨 论

3.1在进化过程中,处于同一分支的拟南芥TCP基因往往具有相似的生物学功能,这也预示着处于同一分支的其他植物的TCP基因在不同植物中具有相似的功能。因此,准确鉴定棉花TCP基因家族成员,并进行正确分类是研究棉花TCP基因功能的前提。李燕等[59]通过对二倍体雷蒙德氏棉和亚洲棉TCP基因家族的生物信息学分析,在2个棉种全基因组中分别鉴定出37个TCP基因家族成员,分别分布在10条染色体和13条染色体上;2个棉种中TCP基因大部分不含内含子,结构比较简单;所有TCP转录因子具有高度保守的TCP结构域;TCP基因家族分成2个亚族3个亚类。研究利用最新组装的陆地棉参考基因组数据,通过利用生物信息学方法鉴定出63个陆地棉TCP家族基因,鉴定出的TCP家族基因少于韩利红[18]分析得到的74个非冗余GhTCP基因,可能是74个基因其中有部分TCP基因是同源基因或由于基因的倒位、缺失或位点突变等因素导致了基因失去了活性。研究鉴定到的63个TCP基因分为两大亚类:39个基因属于Class I型,24个基因属于Class Ⅱ型,24个Class Ⅱ型基因包含分为17个CIN和7个CYC两个亚类。陆地棉TCP基因结构域高度保守,结构比较简单。该结果与TCP基因在雷蒙德氏棉、亚洲棉、拟南芥和其他植物中的特性类似[3,11],也预示TCP家族基因可能在陆地棉生长发育过程中发挥同样重要的作用。

3.2TCP基因与细胞的增殖分化有关,并对拟南芥花的对称性、植株分枝等植物形态方面的控制和进化起到了关键的作用。将得到的陆地棉63个TCP基因与拟南芥TCP基因构建系统进化树,分析其进化分类关系,有助于推测TCP基因在陆地棉植物体内的表达及功能。组织特异性表达分析表明陆地棉TCP基因在陆地棉营养器官、花器官和纤维中高水平表达,TCP基因可能参与陆地棉植株生长、开花和纤维发育的调控,具体功能还需通过遗传转化等进一步确认。

4 结 论

在棉花全基因组中鉴定到63个陆地棉TCP家族基因。TCP家族基因分布于陆地棉22条染色体上。陆地棉TCP蛋白分为Class I和Class Ⅱ 2个家族,Class Ⅱ 型TCP蛋白分为CIN和CYC两个亚类。63个陆地棉TCP蛋白均含有TCP结构域。TCP基因外显子和内含子结构及长度在同一亚家族内具有相似性。12个陆地棉器官组织中均有TCP基因参与表达,Class I型TCP基因主要在陆地棉营养器官、花器官和纤维发育初期表达量较高;Class Ⅱ型TCP基因主要在陆地棉根和花器官中表达量相对较高。

猜你喜欢
进化树残基外显子
外显子跳跃模式中组蛋白修饰的组合模式分析
基于各向异性网络模型研究δ阿片受体的动力学与关键残基*
基于心理旋转的小学生物进化树教学实验报告
常见的进化树错误概念及其辨析*
“残基片段和排列组合法”在书写限制条件的同分异构体中的应用
外显子组测序助力产前诊断胎儿骨骼发育不良
外显子组测序助力产前诊断胎儿骨骼发育不良
艾草白粉病的病原菌鉴定
蛋白质二级结构序列与残基种类间关联的分析
基于支持向量机的蛋白质相互作用界面热点残基预测