3月3日,国际顶尖期刊《细胞》以“全基因组测序揭示非洲人群的复杂演化历程与对环境的适应性进化”为题,在线发表了以复旦大学生命科学学院和人类表型组研究院樊少华青年研究员为第一作者、宾夕法尼亚大学遗传学系莎拉·蒂什考夫教授为通讯作者的国际科学团队历时7年完成的最新研究成果。
现有研究表明,现代人类起源于非洲,相比于其它大陆,现代人类在非洲居住时间最长,并且在迁徙,融合和对环境适应性进化的过程中形成了超过3000个民族和2100种语言。目前非洲人群不仅具有世界上最丰富的遗传多样性和表型多样性,并且现代人类近三分之一的语言都在非洲,是全世界语言最为多样化的地区之一。
然而,目前的遗传学和基因组学的研究中,只有不到3%的样本来自非洲,存在严重的滞后性。研究非洲人群遗传多样性不仅将加深我们对于现代人类起源、早期遗传结构以及适应性进化的理解,并且也能为健康和诊断研究及开发提供丰富的新遗传信息。
该研究对极具代表性的非洲12个群体的180位个人进行了全基因组测序分析。这些民族地理分布广泛,以种植农业、打猎收集和游牧等不同方式为生,并且涵盖了非洲四个主要的语系。
基于人类参考基因组,研究共发现3200万个单核苷酸多态性位点(single nucleotide polymorphism, SNP),其中大约530万个位点是在之前没有发现的。这些新发现的突变广泛的存在于增强子、启动子以及转录因子结合位点等基因组功能区域。
研究发现12个非洲民族的平均SNP个数和遗传多态性均具有显著的差异。以打猎和收集为生的桑人和热带雨林小矮人的SNP数量和遗传多态性最高,而Amhara,Fulani,Chabu以及Hadza等民族的遗传多态性则最低。而大量非洲外人群的基因渗入(在Amhara和Fulani人群中)以及严重的群体瓶颈(在Hadza和Chabu人群中)是造成部分非洲人群体遗传多态性低的主要原因。例如,生活在坦桑尼亚的Hadza群体和埃塞俄比亚的Chabu群体的人口数量已经少于1000人。
在研究中,科学家利用邻近距离法对本研究中的12个民族和来自“千人基因组计划”的欧洲人群(CEU)、北方汉族人群(CHB)、托斯卡纳人群(TSI),以及来自“西蒙斯基因组多态性研究计划”中的巴布亚人群(Papuan)进行了系统计划分析,结果显示现代桑人的遗传学祖先是现代人类最早发生分歧的一支,随后发生分歧的是热带雨林小矮人的祖先。现代桑人和小矮人祖先的早期分歧的现象也被主成分分析(PCA)和ADMIXTURE所支持。
研究发现,不同民族在系统进化树的聚类模式与他们目前所处的地理环境显著相关,这说明地理环境是制约不同民族间基因交流的重要因素。
当然,由于基因交流和遗传重组等因素的影响,上述邻近距离法、主成分分析和ADMIXTURE无法用来构建现代人类早期遗传结构。而当科学家将这些因素全部纳入到复杂模型中进行计算分析时却进一步发现:现代桑人和小矮人的共同祖先,不是现代桑人的祖先,而是现代人类最早分歧的一支。并且研究推断现代人类的分歧发生在28万年前,这与之前的考古和基于古DNA检测推断的时间一致。
同时,科学家们在本研究中利用PCA和ADMIXTURE分析,还在目前坦桑尼亚说Kheosan语言的Hadza和Sandawe的基因组中发现了桑人相关的祖源成分。虽然仅有南部非洲的桑人以及东非坦桑尼亚的Hadza和Sandawe说Khoesan语言,但本项研究利用PCA分析,将全球之前已发表的来自不同地区的55个古非洲人样本投射到现代非洲人样本中后发现,大量的来自不同地区的古非洲人样本位于桑人和东非的Hadza与Sandawe人群之间,但是这些地区目前却没有讲Khoesan语言的民族。该结果提示,Khoesan语系在非洲的地域分布曾经很广,遍及整个非洲, 但可能受到班图大迁徙或其它因素的影响,目前说Koesan语的古非洲人群大都灭绝了。
研究过程中,科学家团队还结合正选择分析、功能基因组学以及大规模全基因组关联分析的结果,对12个非洲民族特异的适应性进化进行研究,全面绘制了一幅非洲人群适应性进化的图谱。