40%的中国⼈的Y染⾊体来⾃3个新⽯器时代的超级祖先
2013年10⽉15⽇,我在arXiv⽂章数据库挂出了⼀篇⽂章(/abs/1310.3897,带附件
的下载地址见/s/qGPNPvCSIf0t),题⽬是?Y Chromosomes of 40%组合鞋架
Chinese Are Descendants of Three Neolithic Super-grandfathers?,即《40%的中国⼈的Y染⾊体
来⾃三个新⽯器时代的超级祖先》,基本内容如下:⾸先是对110个东亚样本做Y染⾊体测序,得 到质量可以接受的序列共78个。从⾥⾯到了4000多个新的SNP位点,命名以F(复旦)打头。因
为我们捕获来测序的范围是随机的(取的Y染⾊体上没有重复的约4 Mbp的很多不连续⽚段的集
合,与已知⽀系信息⽆关),范围⼜⽐较⼤,所以可以画⼀棵明确且没有偏向的演化树(因为绝⼤
多数位点都是没有回复突变的),然后就能按传统的分⼦钟⽅法计算时间了。 皮革涂饰剂计算相对时间只要数每⽀的突变个数再相⽐就⾏了(因为有波动,具体时间还是按最⼤似然法综合
算的),但绝对时间,就是说平均⼀个突变到底需要多少年,是需要标定的。这⾥我们先只⽤了⼀
个1×10-9/年/碱基的突变率。⽂⾥⽤SNP算的相对时间能⽐⽤STR算出来的准很多(⽂中说了,准
确度的误差范围和⽤于计算时间的SNP数开根号成反⽐)。标定的绝对年代(即SNP的绝对突变
率)也许还有些误差,但⾄少结果也在以往各种⽅法估出来的范围之中(以往算出⾛出⾮洲年龄最
⼩的不到4万年,最⼤的8万年,我们算出5.4万)。
⽂章的结论
能相对以往准确得多地算出分⽀时间,⾄少是相对时间,另⼀⽂章最⼤的亮点有两个,⼀个是能相对以往准确得多地算出分⽀时间,⾄少是相对时间发现O3下⾯的三个⼤的星状扩张 下⾯的三个⼤的星状扩张(下⾯具体谈到)。以往⽤Y-SNP不能算时间是因为实验个是发现
是特地挑的已知SNP来做的,数量少,且本⾝带有偏向性。⽽本实验是不带任何⼈⽅⾯的预设来的SNP,是不带偏向性的。线粒体全测能算时间也是同样道理。当然因为Y染⾊体位点多,平均每100年左右就能有⼀个突变(⽤全序,即10Mbp左右的范围),⽽线粒体平均要2000多年才能在全长上有⼀次突变,因此Y染⾊体算出的时间精度能⽐线粒体好很多。
石竹素
⽀系⽅⾯⽐较重要的结论有以下⼏点:
1. ⾛出⾮洲的C、DE、F三⼤⽀的分⽀年代在5万多年。虽然C和F在⼀起⽽DE是早分出的,⽽因为E主体的分布是在⾮洲,本来有⼈提出CF和D可能是两批分别⾛出⾮洲的,但我们发现CF共有的SNP只有3个,对应⼤概不到1000年,这样C, DE和F仍是准三叉,根据奥卡姆剔⼑原理,还是M168+整体迁出⾮洲然后E那⽀再回流⾮洲的可能性稍⼤⼀些。 2. F⽀经历过极强的瓶颈,以致于和C分开后过了差不多2万年才再⼀次产⽣下游分⽀G, H, IJ, K,K
下⾯的分化也很快(NO, P和LT⽬前来看也是个准三叉,M和S因为没有样本,现在拓扑关系还不明朗),也就是说,F⽀下⾯按字母分的单倍从树⼲上分出的时间⼤体都在
3.6 – 2.4万年前之间,尤其3.6 – 3万年前是⼀个快速扩张的时期。O3-M122与O1-M119、O2-M268分开后不
久,O1、O2再分开。⽽下游的分化总的次序是O2最早,其次O3,⽽O1最晚(不过可能和这次测序的O1样本多数取⾃华东有关,多取⼀些南⽅少数民族的O1样本可能会有⼀些更早的分⽀。)3. O系的地理布散,尤其是O3a-M324(占中国⼈⼝的⼀半以上),主要发⽣在1.9 – 1万年前,即末次冰盛期(2.3 – 1.8万年前)之后的旧⽯器时代。这段时间全球⽓候逐渐回暖,海平⾯从现在海⾯以下上百⽶⼀直升到和⽬前海平⾯接近的⾼度,⼈类的可活动范围⼤⼤扩展,技术上也有了⼀些创新,⽐如陶器的发明,农业也出现了萌芽。
4. 在树上观察到,5000到6000多年前左右,在中国出现了三个超级祖先,⼀个在M117下,⼀
个在M134的另⼀个分⽀,即F444下,还有⼀个在002611的下游F11下。这三个超级祖先出现
我把他们分别称为Oα, Oβ和Oγ,算作对现的年代很接近(次序按不同⽅法算出来有所区别)。我把他们分别称为
硬质合金密封环
有单倍命名系统的⼀个改进。这三个⼤约6000年前的⼈的后代构成了现在汉族⼈的40%以上
以上。之所以很特别(因为⼀个⼈往上推总会推到某个时候有个祖先的后代占了⼀⼤半),是因
星状扩张,即突然
染⾊体树的所有分⽀,都是⼆叉,⽽这三个扩张是星状扩张在这三个扩张以前的Y染⾊体树的所有分⽀,都是⼆叉,⽽这三个扩张是
为在这三个扩张以前的
从⼀个⼈演化出难以分出先后(这篇⽂章的测序精度是平均250年⼀个突变)的5 – 7个⽀系,⽽且这5 – 7⽀是都有后代⼀直延续到现在的。长⽀或⼆叉当中的那些古⼈当然不是说那些⼈都没有兄弟,⽽是说⽆数辈的兄弟都没能传下男性后代,当时的⼈⼝扩张也相对缓慢,只有这⼏⽀幸运⼉的后代终于活到了现代。
5. C3-M217是占中国10%左右的⼤⽀系,很清楚分为南北两⽀,2.6万年前分开,⽐O3和O1’2分开还略早。结合STR结果来看,汉族的C3基本都是南⽀,且存在⼀个6000多年前的扩张(可能⽐O3下的三⼤簇略早)。汉族和北⽅民族都常见的C3d-M407属于南⽀那个扩张下游的。⽽星簇(star cluster,以前Zerjal et al.说是成吉思汗⽣出来的)、448-del两个重要⽀系(应该也有C3c-M48)属于
北⽀。C3的北⽀基本在汉族⾥不存在。关于C单倍的更多细节,我的同事兰海应该会发表⼀篇paper来说明。
6. N单倍的最早分化也在1.6万年前。也分为南北两⽀。结合STR来看,原先的N1a-M128和N1c-M46(应该也有N1b-P43)都是北⽀的。关于N的更多细节,我也会另外写⼀篇paper来讲。
⽂章⾥没写的(因为⽂章本来要投⼤杂志的,因篇幅有限或说了会被审稿⼈挑刺所以没放在⽂章⾥,或者被别⼈抢去的,或是证据不⾜的猜想):
7. 时间估计的不精确性。因为原先⽂章⾥的⽤STR计算突变率有⼀些问题,在后来投的稿⾥这部分被砍掉了。但相对的STR时间计算是没有问题的。这⾥给出两张散点图,⽐较相同的两个样本⽤17-STR得出的时间和直接数相差的SNP数的对⽐。前⼀张图是所有样本间的两两⽐较。后⼀张图是Oγ星状扩张中每对共祖于星点的两个样本的STR计算时间和相差的SNP数的对⽐。因为是同⼀个星,理论上两个样本的共祖时间⼏乎相同。可见SNP算出的时间精度远好于STR算出的,⽽得到的结果经常可能差出⼀个数量级以上。或者说,两个样本STR很远的可以排除近期的STR得到的结果经常可能差出⼀个数量级以上
simota共祖,但STR近的,实际共祖时间可能很晚但也不排除实际很早但是因为巧合⽽STR接近了。经常有⼈问,我们两个⼈STR差4个点,到底能差多少年,我说100年到1万年都没准,这确实不是搪塞。
⼈類學雜記——24. <wbr>中國⼈的超級祖先
⼈類學雜記——24. <wbr>中國⼈的超級祖先
8. 这三个超级祖先到底是什么⼈。⾸先,这个扩张年代正好在五六千年前,属新⽯器时代晚期,对应的⽂化包括仰韶时代晚期和⼤汶⼝⽂化晚期等(我知道有⼈认为这三个扩张不是发⽣于黄河流域的,留以后发现更多证据,尤其是古DNA证据来回答了。)这个时代我知道的有两个⼤的变⾰,⼀个是农业的⼤发展,⾕类从采集、狩猎的辅助⾷物变成了⾷物的主体部分,⼈们的⾷物开始严重依赖农业,同时聚落的分布密度⼤⼤增加,说明⼈⼝增加。同时⼜有⼀个社会结构的变化,墓葬从体葬逐渐发展出了单⼈葬和对偶葬,说明社会从母系社会变成了⽗系社会。因此,对于这三个超级祖先,有两种解释:其⼀,他们是最早的集约化农民,因为⽣产⼒(⾕物和⼈⼝的)⼤幅发展,成了超级祖先,因此称
称Oα, Oβ和Oγ分别为“农民甲”、“农民⼄”和“农民丙”。有⼈不相信这种解释,认为他们肯定是很伟⼤的部落⾸领,有巨⼤的权⼒⽽能占有很多⼥⼈,建议⽤三皇来称呼,我
把Oγ, Oβ和Oα分别称作“天皇”、“地皇”和“泰皇”。(还有建议把他们按照计算出的时间,分别把
称作“炎帝”、“黄帝”和“蚩尤”的,因为时间不符合,⽽且因为可能有历史原型⽽对应⽀系可能被证伪,
再加上“蚩尤”从民族学上看⼤概对应苗瑶的O3a2b-M7⽽不属这三⼤簇,所以我觉得还是⽤纯神化的三皇更合适⼀些。)当然⽤三皇命名有些⼈会觉得神棍⼀些,宁可⽤“农民”,不过其实把⼈类⽗系共祖称作“Y染⾊体亚当”同样神棍。我觉得反正这三簇是客观存在的,短时间也不容易证明到底他们是什么样的⼈物,那称作农民还是三皇就看个⼈信仰了。
空调线束9. 除了三个O3下⾯的超级祖先,另有两⽀也需要关注,⼀个是C3下⾯F1144的下游扩张,即南⽀,扩张时间可能⽐O3的三⼤簇略早,另⼀个是O1a1下⾯F78的下游扩张,年代可能只有4000年不到。这两⽀的⼈⼝⼤概也各占了汉族的10%上下,但因为⾼通量测序时没有⾜够的样本或有的样本测序质量不好,尚未能表现出星状扩张,但我相信如果能扩⼤测序样本的数⽬,也是能到类似
这五个新⽯器祖先星簇的扩张的。(我还暂时没有给这两⽀起名字。)这样,把这两⽀也加上,这五个新⽯器祖先
的⽐例了。
的后代就能占到汉族及中国⼈60%的⽐例了
(上图是五⽀祖先⼤致的分布范围和所占⼈⼝⽐例。不是严格计算,汉族之外的⽀系判断可能有错。)
10. 关于华夏的起源。因为这篇⽂章计算了时间,所以明确了,汉族(或中华民族)的⼤多数姓
汉族(或中华民族)的⼤多数姓⽒的都起源于⼀个⼏千年前叫黄帝的共同⽗系祖先必然是不可能的。新⽯器时代晚期最⼤的簇⽒的都起源于⼀个⼏千年前叫黄帝的共同⽗系祖先必然是不可能的