Y染色体DNA遗传标记在汉藏语系民族研究中的应用*

2019-05-08 08:34张秀秀

贵州医科大学学报 2019年4期

张秀秀，何燕*

(1.贵州医科大学地方病与少数民族疾病教育部重点实验室，贵州贵阳 550004； 2.贵州医科大学贵州省医学分子生物学重点实验室，贵州贵阳 550004)

现代人类走出非洲后，由于地理的隔离和气候上的差异以及历史长期的积淀[1]和语言交流不通[2]等因素，形成许多不同的族群。远古时期，人类没有文字，在了解这些族群的演变及融合过程时只能通过口头的传承得到这些族群的起源、变迁过程[3]。由于没有具体文字的记载，从而使得很多族群在生物学起源和迁徙的问题上变得越来越模糊；在群体的起源以及与其他群体关系的研究中，相对于语言、历史、考古来说，分子生物学的方法会相对精准和科学得多[4]。因为随着时间推移，任何语言都会不断的发生变化，并可能受到其他语言的影响，历史记载无法排除主观性的存在[5]。考古学数据的可靠性有时会让人怀疑，而脱氧核糖核酸(deoxyribonucleic acid,DNA)作为人类的遗传物质[6]，虽受到环境的影响会在一定程度发生变异，但这些变异是有规律且遵循一定速度的，继而可用作遗传时间和距离的标尺。可以说，在人类起源和迁徙过程中，外部留下的痕迹不多、却可在体内留下了清晰的“足印”：人群分开的时间短，遗传信息相似性就大；分开的时间长，相似性就小。因此，分子生物学可以作为一个很好的测量工具，通过研究人群间的这些有规律可循的变异或多态(即遗传标记)，进而度量人群间的相互关系，可为错综复杂的人类起源、迁徙和融合等研究带来契机。因此，利用遗传标记研究不同民族群体的遗传多样性对于了解汉藏语系的起源、迁徙以及相互关系有着重要意义。

1 Y染色体DNA遗传标记

人类Y染色体 DNA (Y chromosome DNA，Y-DNA)长约5.9×104kb的DNA，由两端的拟常染色体区(pseudoautosomal regions,PAR) 和中间的男性特异区 (male specific region of Y chromosome,MSY) 组成。拟常染色区(大约占5%)位于Y染色体的两端，在男性减数分裂过程中，拟常染色体区可与X染色体重组交换，其余95%为Y染色体男性特异区[7]。男性特异区不发生重组呈单倍型传递，在父系遗传中能够忠实地记录传代过程中所产生的突变[8]，形成特异的遗传标记，在人类遗传与进化方面意义重大。

Y染色体上常用的遗传标记有单核苷酸多态性(Y chromosome single nuclear polymorphism,SNP，Y-SNP)和短串联重复序列(Y chromosome short tandem repeat，Y-STR)两种[9]，其中Y-SNP突变速率较低，可反映较为久远的人群父系事件；Y-STR突变速率较高，多用于评估较近的历史事件。由于单一遗传标记所传达的信息量较少，分子遗传学研究中，往往是以单倍型(haplotype)甚至单倍群(haplogroup)来对人群的进化和迁徙展开研究。单倍型是单倍体基因型的简称，在遗传学上是指在同一染色体上进行共同遗传的多个基因座上等位基因的组合[10]，如由多个突变位点构成的一种突变谱。一般情况下，单倍型可由SNP或STR等遗传标记来进行确认，在分子进化的研究中，单倍群(或称单倍型类群)是指一组类似的单倍型，它们有一个共同的单核苷酸多态性祖先[11]，即祖先单倍型与所有后代单倍型合称一个单倍群。多年来，科学家们通过对世界多地人群的Y-SNP和Y-STR等遗传标记的研究发现，Y 染色体单倍群分布具有很强的地理特异性[12]。研究不同地域及不同人群的 Y 染色体单倍群的频率分布，可用于推测人群进化、迁移及历史[13]。2003年Jobling MA等[14]修订了人类Y染色体单倍群系统发育树，即YCC(2003)，图中根据Y染色体单倍型类群的不同可把全部现代智人分为18个单倍群，用从A到R的18个字母代表；18个单倍群下，又可分为多个更小的“子”单倍群，用其上“父”单倍群的字母和数字及其他字母来表示(图1)。谱系树中的父节点代表的对应基因突变是所有子节点共有的，但反之不然。例如单倍群D对应的基因突变是M174，单倍群D1对应的基因突变除了“父”单倍群D的M174外还有“子”单倍群D1特有的M15。YCC(2003)谱系图同时还推导出了全球Y单倍群图[15]，见图2。图中展现了世界各地人群的Y染色体单倍群的主要分属类型，并可根据各单倍群对应基因突变出现的时间[16]，推测出相应人群的迁徙路径[17]。

2 汉藏语系民族的形成

在人类起源和迁徙等研究中，语言学是一种较为科学的方式。根据语言的发展和演变、直接而明显的关联，对语言进行归类的方法称为语言系属分类。语言系属分类主要依据语言语音、词汇、语法规则之间某些对应关系，把具有相似的语言归于同一类语群，这种语群称为同族语言即“语族”。按“语族”之间的某些对应关系，又归在一起，这类同类语族称为同系语言即“语系”[18]。其中东亚主要为汉藏语系，其下包含汉语族、藏缅语族、苗瑶语族、壮侗语族等[19]，见图3。

关于人类起源，目前较公认的“非洲起源说”认为，十多万年前，现代人共同起源于非洲[20]，部分Y染色体上带有M168位点突变的人群在 9万多年前走出非洲，后到了中东与尼安德特人的祖先有一些基因上的交流[21]。 6万年前携带 M130 突变的人群沿南线顺时针迁徙进入印度[22]沿着印度洋进入东南亚[23]，成为了现代亚洲人的祖先，5万年前其中一支前往东南亚岛屿和太平洋诸岛产生支系 C2-M38和C4-M210，而后，C3-M48和C3-M407向北进入东亚、中亚等地区[8]。一部分人在3万年前，抵达我国珠江流域形成百越民族，还有一部分人，大约于1.5万年前由云南进入中国，到达了河套地区和黄河中上游的盆地形成了汉藏语系民族[23]。单倍群O3-M122(O3a1c-002611，O3a2c1 *-M134，O3a2c1a-M117等)在汉藏语系民族几乎所有人群中都非常普遍[24]，是汉藏人群中主要的父系单倍群[25]，因此，在揭示这些群体的源流方面比其他单倍群更具信息性。Su等[26]也发现几乎所有的汉藏人群在单倍群 O3-M122存在高频分布，并推测古羌人群是汉藏语系民族的祖先。在西藏以东的羌族群体中发现 O3a2c1a-M117 有很高的频率[27]，提示这个地区很有可能是汉藏群体的起源地。下面对汉藏语系民族各语族(汉语族、侗台语族、苗瑶语族和藏缅语族)进行一一探讨。

2.1 Y染色体多态位点在汉语族中的研究

汉族和回族归属于汉语族，从父系遗传学角度来看，居住在黄河中上游地区的氐羌人群中出现单倍群 O3a2c1 *-M134 和 O3a2c1a-M117形成了炎黄部落，以及东向分支携带 O3a1c- 002611发展成为东夷部落[28]。炎黄部落与东夷部落一起逐渐发展成为一个被称为汉族的大人群[28]。O3a2c1 *-M134，O3a2c1a-M117和O3a1c-002611作为 O3-M122 的亚群分别占汉族的12%～17%[29]， O3a2c1 *-M134 和 O3a2c1a-M133 经常在一起出现，在汉族中尤其常见[30]。

图1 单倍群划分树谱

图2 Y染色体单倍群世界分布图

图3 汉藏语系民族主要的四大类语族

汉族名称正式使用是在汉朝时期[31]。任贺[32]通过南方汉族与北方汉族样本的结果进行比较，发现 Y 染色体上的基因分布随着地域不同，遗传结构也存在着差异。而李辉等[19]分析了28个地区汉族群体显示北方汉族和南方汉族在父系遗传结构上非常相似。

2.2 Y染色体多态位点在苗瑶语族中的研究

苗族、瑶族、畲族归属于苗瑶语族。苗瑶语族主要分布在中国南部及东南亚地区，孟高棉语族和苗瑶语族在Y染色体遗传上有非常高的相似度，XIAO Y C等[33]通过对47个群体进行分析发现苗瑶语族与孟高棉族群在遗传上密切相关，在两个群体中发现O3a4-M7的频率都很高。此外，单倍群O3a4在其他群体中几乎不存在[34]。梁祚仁[35]对14个民族17个Y-STR进行遗传数据分析并根据遗传距离进行系统进化树的绘制，在进化树上明显的看到，苗瑶语族(苗族、瑶族)与壮侗语族(仫佬族、侗族、仡佬族、水族、壮族、毛南族)以及汉语族(汉族)之间的遗传关系较近。

2.3 Y染色体多态位点在藏缅语族中的研究

中国西南地区喜马拉雅南麓西起巴基斯坦，东到尼泊尔、越南等国家，分布着大约300多种藏缅语族语言，有的语言还跨境分布[36]，各族群之间存在唇齿相依的族源关系，藏缅群体源于中国西北的古老族群，在过去2 000～3 000年里，由于受到秦朝和其他王朝的压迫，他们被迫从中国西北地区南迁[37]。几乎所有的藏缅群体中单倍群O3*和O3e都存在高频分布[18]，然而，单倍型类群 O3a1c-002611被发现在藏缅语族群体中频率非常低，这表明该谱系可能没有参与藏缅语族种群的形成[38]。韩建利[39]对云南大理白族男性人群43个Y-SNP位点进行遗传学分析，发现单倍群O3-M122、O3a1c-002611在白族的分布频率分别为0.428 1、0.097 1，与其他学者的研究结果相符。

2.4 Y染色体多态位点在壮侗语族中的研究

壮族、侗族、水族、黎族、傣族、布依族、仫佬族和毛南族归属于壮侗语族[40](图4)。目前学术界在壮侗语族源流问题上认为，壮侗语族与古代的百越族同源[41]，O2a1-M95与O1-M119被认为是壮侗语族的高频单倍群[42]。

图4 壮侗语族的 8 个民族

在新石器时代，中国东南部人口扩张时壮侗语族群体衍化出单倍群O- M175[33]，O2a1-M95 谱系在大约2～4万年起源于东亚南部的壮侗语族[43]。YANG Z等[44]对云南少数民族Y染色体单倍群进行遗传学分析，发现水族在单倍群O3a2c1 -M134具有高频分布(55.0%)，O2a1-M95为壮族和布依族的主要单倍群，频率分布分别为38.3%和41.7%。

综上所述，从Y染色体父系遗传角度分析，汉藏语系民族的父系起源不是单一的，而是多元的，汉藏语系民族是语族间、民族间以及与其他语系、语族、民族之间发生基因交融的结果；在某一地域的同一民族或语族人群可以认为有相同或相近的Y染色体父系遗传结构。 Y 染色体与人群的关联研究必然成为研究群体起源和演变、迁徙的重要方式， Y 染色体非重组区多态性在鉴别民族的起源和迁移研究中具有较大的准确度和可操作性，必将继续发挥其巨大作用。

3 展望

随着生命科学各领域尤其是分子生物学的突破性进展，人类学、民族学、遗传学等的目光已经从语言学、历史学、考古学转移到了分子生物学，Y-STR 和 Y-SNP可以为各语族提供近期和早期的遗传学证据，为各个语族的源流提供分子生物学依据，其目标将是建成一个综合的、系统的DNA 数据库(DNA database)，为相关研究提供可参考的依据。