Adv. Sci. | 基于高分辨率古今Y染色体基因组解析新石器粟作与稻作农民的南向扩张及其遗传影响
近日,四川大学考古科学中心分子考古研究团队联合广东省毒品实验技术中心(国家毒品实验室广东分中心)刘超院士团队在国际综合期刊《Advanced Science》上发表了题为“Modern and Ancient Genomes Reveal Neolithic Paternal Expansions of Millet and Rice Farmers and Demic Diffusion from China into Mainland Southeast Asia”的研究论文。基于自主研发的高分辨率Y染色体捕获测序体系,研究团队通过检测584例新测序Y染色体基因组、整合欧亚古代人群Y染色体序列等大规模遗传资源,系统解析了欧亚古今人群的父系遗传谱系并构建了Y染色体精细演化研究的炎黄队列资源平台。该研究构建了迄今分辨率最高的东亚、东南亚Y染色体系统发育图谱和演化框架,识别出138个新石器时期分化的父系支系,其中17个优势支系在中国及东南亚人群中广泛共享,其扩张高峰对应农业技术传播的关键阶段。研究结果表明,中国南北方汉族父系结构分化较弱,而南方少数民族结构则与地理、语言分布高度相关。结合古DNA证据,研究证实了北方粟作人群南迁与南方稻作人群扩张共同塑造了华南及东南亚的父系遗传格局,有力支持了农业与汉文化伴随“人口扩散”的传播模式。该成果不仅为法医学Y染色体精准溯源提供了新技术与数据基础,也从父系遗传视角为理解中华民族形成、解析东亚及东南亚人群遗传结构及迁徙历史提供了关键证据,具有重要的科学价值与应用前景。

尽管古DNA与大规模基因组数据增进了对东亚及东南亚人群迁移混合的理解,证实了粟作农业人群的南向扩散及其对区域遗传结构的贡献,但Y染色体数据仍相对有限,制约了从父系视角深入探究人群演化历史。特别是新石器时代农业扩张、汉族形成及其向东南亚的扩散究竟主要由“人口扩散”还是“文化传播”驱动,尚未得到清晰解答。为此,本研究整合了涵盖1080个古DNA及584例新测序Y染色体基因组的高质量数据集,通过构建高分辨率系统发育图谱,旨在精细解析东亚与东南亚人群的父系遗传结构,揭示古代农业人群南迁的父系动态及其对现代人群形成的具体影响。

具有可靠时间标记的高分辨率Y染色体系统发育框架
为了构建中国及东南亚大陆父系支系的高分辨率谱图,我们汇编了一个包含5366个完整Y染色体序列的全球数据集,并构建了一个最大似然树以追溯全球人群的父系人口历史。其中,提取了3618条序列中高置信度基因组区域,包括584个来自中国14个省份不同民族新报告的样本,并补充了公共数据库和先前研究的数据。值得注意的是,使用了1748条来自东南亚大陆的序列来探索中国与东南亚大陆之间的遗传联系,但其覆盖率较低(约2.3 Mb)。重建的基于最大似然的系统发育树和贝叶斯进化分析采样树识别出138个在新石器时代发生分化的支系,以及17个中国与东南亚大陆共享的父系支系,这些支系属于 D-CTS3946、C-M130、Q-M242、R-M207、N-M231 和 O-M175 的下游分支。这些分支显示出不同水平的分化:六个具有长分支和深部节点,而其余十一个则为较浅的分支。使用贝叶斯进化分析采样树得出的最近共祖时间估计证实了这一观察。分析揭示了一个大约在5.1至4.5万年前的主要分化事件,随后在大多数支系中出现了显著的瓶颈期(4.5至3.5万年前)。之后,单倍群O从晚更新世到全新世表现出明显的多样性增加。相比之下,其他共享支系(C、D、N、Q和R)直到新石器时代仍保持相对无分支的状态。新出现和累积的节点代表了溯祖事件的数量。在2万年的时间尺度上,节点数量的显著增加始于新石器时代开始前后,这与新石器农业兴起驱动人口增长的假说一致。在全新世内,节点累积速率在约5000年前显著加快(每时间间隔大于50个新节点),并在3500至3000年前达到峰值,有94个新推断的溯祖事件。这些发现表明,中国与东南亚大陆之间大部分的父系遗传交流发生在新石器时代,单倍群O成为中国和东南亚大陆父系基因库中的主导支系。
最大似然树的拓扑结构和终端节点的地理分布进一步为理解这些父系系统发育关系和迁移模式提供了见解。使用基于pathPhynder的系统发育定位,我们将东南亚大陆序列定位到欧亚Y染色体树上最高分辨率的支系中。这种基于似然的方法我们构建了涵盖中国与东南亚大陆基因组序列的高分辨率整合系统发育框架,避免了仅依赖现代人类序列共享的2Mb区域进行系统发育重建可能带来的信息损失,同时也最大限度地利用了当前可用的东南亚大陆数据。我们观察到大多数共享分支在中国和东南亚大陆都有明显的支系辐射。在17个共享分支中出现了一个普遍的自北向南的迁移模式,即多个支系起源于中国,并在不同时间点扩散到东南亚大陆。单倍群O2a2b1a1a,作为已知与仰韶文化相关的粟作农民支系,现已广泛分布于中国和东南亚大陆,并拥有众多下游亚分支,表明其早期快速扩张。在许多亚分支中,北方汉族和少数民族人群处于上游的聚类位置,进一步支持了这些南向扩散显著塑造了中国南方和东南亚大陆父系遗传结构的假说。此外,几个分支显示出区域限制性分布:D1a1b1a局限于中国西南部的藏缅语系群体和少数北方人群,而 C2a1、O1b2a 和 N1a 则主要局限于中国北方。扩大这些地区的采样范围,可能为理解这些知之甚少的支系的演化轨迹提供关键见解。

图1.欧亚东部不同语系人群的地理分布及系统发育拓扑结构

图2.中国与东南亚大陆之间共享的父系支系及其可靠的时间估计
遗传景观与多样性
最大似然树和贝叶斯进化分析采样树估计为了解中国与东南亚大陆之间的遗传相似性、共享祖先溯祖时间以及南向迁移的潜在影响提供了初步见解。然而,由于样本量有限,精细尺度的父系遗传结构以及塑造这一遗传遗产的力量仍然知之甚少。为弥补这一不足,我们扩大了样本量,采用经济高效的高分辨率微阵列方法,对来自不同民族群体样本进行了基因分型,并靶向研究了奠基者支系。这项大规模工作旨在阐明北向南扩散对中国南方和东南亚大陆父系遗传景观的遗传影响。采样的少数民族人群主要来自中国南方,该地区拥有丰富的语言和民族多样性。由于其位于东亚与东南亚大陆之间的地理过渡位置,中国南方长期充当了这些地区之间人口互动、文化扩散和遗传交流的关键区域。尽管其遗传复杂性潜力巨大,但在人类基因组研究中仍然代表性不足。我们的研究确定了系列主要单倍群。值得注意的是,这些单倍群在不同人群中的分布差异显著。排除少于20人的群体后,我们观察到单倍群O主要以O2-M122 为代表,在所有31个不同民族群体中的平均频率为47.17%。该支系在6个北方群体中(平均:50.68%)比其余25个南方群体中(46.33%)更为普遍。C2-M217和 N-CTS3750 支系在北方人群中更常见,但也出现在几个南方少数民族中,而 O1-F265 则在南方人群中显著富集。D1-M174主要局限于藏族群体,而 C1-F3393、Q-M242 和 R-M207 则零星出现,主要在北方地区。此外,特定的稀有亚支,包括 J2-M172、I2-M438 和 F-M89,在特定群体中达到了显著频率。这些地理上不同的分布暗示了不同的父系起源或复杂的混合历史。
与东南亚参考人群的比较显示,中国群体与东南亚大陆人群共享密切的遗传亲缘关系,且单倍群谱大致相似。尽管存在整体相似性,但通过曼-惠特尼U检验和韦尔奇t检验也观察到了分化模式,其中 O1a 和 O2a 在中国人群中更普遍,而 O1b 在东南亚大陆群体中显著富集。同时,对语言相关人群的统计检验揭示了这些群体之间的遗传亲缘性。在中国和东南亚大陆的苗瑶语系和壮侗语系人群之间未发现显著差异,支持其共享起源或频繁的基因交流。相比之下,汉藏语系人群在 O1a 和 O2a 上表现出变异,这导致了区域人群的遗传分化。我们还在中国西北部地理受限的人群中检测到中亚和南亚单倍群的痕迹,表明存在有限的东向基因流。为了评估父系遗传多样性,我们计算了单倍群多样性、单倍型多样性、平均配对差异、Theta(S)、Tajima's D和 Fu's FS。汉族人群,尤其是北方汉族,表现出最高的遗传多样性。在少数民族群体中,西南人群呈现出两极分化的模式:一些群体,如羌族和侗族,具有高多样性,而其他群体则表现出较低的变异。边境少数民族,包括壮族、畲族和蒙古族,显示出相对较高的多样性。这些趋势在平均配对差异和Theta(S)中表现一致,反映了汉族群体庞大的有效群体规模和丰富的父系遗传多样性。一些南方人群,如壮族和土家族,显示出显著为负的Tajima's D 和 Fu's FS 值,表明近期发生了父系扩张,特别是在沿海和西南地区。北方汉族和某些西南群体可能保留了由复杂混合历史塑造的古老遗传支系。
多重社会文化因素促成了与地理和语言相关的遗传结构
为了进一步研究东亚和东南亚群体的遗传亚结构及其可能的形成因素,我们基于单倍群频率进行了主成分分析。第一主成分和第二主成分分别解释了总方差的61.52%和18.46%,揭示出沿第二主成分的明显南北分化。第二主成分与纬度之间的负相关进一步强调了这种空间模式。北方和南方汉族人群紧密聚类,而南方少数民族则显示出更大的遗传独特性。语言区分也很明显:北方汉语族群表现出遗传同质性,而南方汉语族群则表现出更大的异质性。一些藏缅语系和苗瑶语系群体,例如羌族、苗族和畲族,在遗传上接近汉族人群,而其他群体(例如侗族、瑶族、毛南族)则表现出显著的分化。尽管一些群体相对隔离,但观察到了汉族与某些民族群体之间的大量遗传联系。在更广泛的欧亚尺度上,主成分分析既揭示了沿第一主成分的南北梯度,也揭示了沿第二主成分的东西梯度,这与相关分析结果一致。来自东亚和东南亚大陆的人群,特别是壮侗语系、苗瑶语系和汉藏语系人群,形成了一个紧密的遗传聚类,突显了它们的遗传亲缘性。回族人群表现出区域遗传变异,暗示了多个起源或分化的混合历史。疍家人与南方汉语族群相距甚远,这可能是由于其与世隔绝的海洋生活方式所致。藏族与北方汉族和东干族聚类,表明存在新石器时代共同起源或近期的遗传交流。贵州的瑶族保持了独特的遗传特征,这与其历史上记载的地理和文化隔离相符。总体而言,东亚和东南亚大陆的父系遗传结构可能是由共同的族源、文化相似性、多向迁移和地理隔离共同塑造的。
配对遗传距离分析揭示了显著的遗传亲缘与分化模式。北方和南方汉族人群显示出密切的遗传关系,河南与重庆之间以及陕西与重庆之间的Fst值较低。特定汉族人群与少数民族之间也存在明显的遗传亲缘性,例如羌族与广东汉族,以及福建疍家人与海南汉族。相比之下,藏族、瑶族和毛南族等群体与其他参考群体表现出显著分化。这些模式通过基于算术平均的未加权配对组方法构建的系统发育树得到了进一步证实。当纳入东南亚大陆人群时,壮侗语系、苗瑶语系和汉藏语系人群之间出现了明显的遗传联系。回族人群内部存在区域聚类现象,海南的回族与疍家人和孟族相近,而四川的回族则与汉族和布依族聚在一起。藏族与东干族和北方汉族聚类,而毛南族则与拉祜族和泰族聚类。为了评估驱动观察到的遗传多样性的因素,我们进行了分子方差分析。民族是导致中国人群遗传变异的主要决定因素,其次是海拔、语言和南北划分。北方与南方汉族人群之间的遗传分化极小,反映了它们高度的内部同质性。相比之下,少数民族表现出相当大的遗传变异,海拔在塑造其遗传结构中发挥了更重要的作用。值得注意的是,北方与南方少数民族之间的遗传差异很大。当纳入欧亚参考人群时,东亚与东南亚人群之间的遗传差异较小,而东亚南部与东南亚大陆人群之间的差异甚至更小。在不同语系群体中,壮侗语系群体表现出最低的遗传分化,而苗瑶语系和汉藏语系群体则显示出更高的遗传分化水平。这些发现强化了主成分分析和Fst结果,强调了东亚南部与东南亚大陆人群之间的遗传同质性。

图3.单倍群频率与群体结构
东亚人群的遗传结构及奠基者支系
尽管先前的结果突显了不同民族语言群体之间的遗传亲缘性和区别,但驱动这些模式的潜在遗传机制仍不清楚。为了更好地理解北方与南方汉族人群之间以及汉族与少数民族之间的遗传差异,我们分析了单倍群频率的变异。使用0.05的分化频率阈值识别出高度分化的单倍群。在区分北方与南方汉族人群的高度分化单倍群中,北方支系(如 C2、N1 和 O2a 亚支)更为普遍,而南方汉族人群则表现出较高的下游 O2a1b 和 O2a2b 支系频率(例如 O2a2b1a1a1a1a)。相比之下,少数民族携带了不同的单倍群,特别是 O2a2a1a2a1a1 和O1b1a1a1a1b。这些高度分化单倍群凸显了地理障碍(如秦岭-淮河线)和文化认同在驱动汉族与少数民族群体之间遗传分化中的作用。进一步的分析揭示了支系分布与语言群体之间的关联。起源于北方的藏缅语系和汉语族人群表现出 O2a 变异,而南方的壮侗语系和苗瑶语系人群则携带 O1b 和 O1a 的衍生类型。在苗瑶语系人群中,O2a2a1a2a1a1 和 O2a2b1a1a1c1a 频率升高,这可能解释了它们在主成分分析中与汉族人群的密切亲缘性。这些发现强调了父系支系与语言归属之间的强相关性。
为了探索这些高度分化单倍群的分布和演化模式,我们构建了中介网络图。中介网络揭示了在壮侗语系人群中 O1b1a1a1a1a 和在苗瑶语系人群中O2a2a1a2a1a1 的星状扩张。对关键突变进行系统发育地理分析,从 O1b1a1a1a1a-F2758 选择了1852个样本,从 O2a2a1a2a1a1-F1275 选择了3389个样本,识别出这些支系在西南沿海和内陆地区最为普遍,优化的热点分析确认这些区域可能是起源地。与纬度呈显著负相关,进一步支持了这些支系南部扩张中心的假说。有趣的是,当纳入来自东南亚大陆的低分辨率单倍群数据(在国家层面汇总)时,热点进一步延伸到东南亚大陆。考虑到该地区涉及东亚血统的已知遗传更替,这种模式可能进一步暗示了近期从中国南方向东南亚大陆的南向迁移。因此,这两个单倍群分别成为壮侗语系和苗瑶语系人群的奠基者支系。

图4.高度分化单倍群及奠基者支系的起源
古代东亚及东南亚人群的最高分辨率Y染色体系统发育树
一些东亚和东南亚人群之间存在明显的遗传分化;然而,如主成分分析、Fst和分子方差分析所示,北方与南方汉族群体之间、汉族与少数民族之间以及东亚与东南亚人群之间,仍然存在着实质性的联系。此外,系统发育树拓扑结构、遗传多样性和单倍群频率的分析一致表明,南方汉族人群和几个少数民族具有古老的北方起源,并且中国南方人群的南迁对东南亚大陆的父系构成有显著的遗传贡献。为了验证这一假说,我们使用一个单一的大规模整合古DNA数据集,绘制了东亚与东南亚人群之间共享单倍群的时空分布图。此外,利用一个资源完整的现代欧亚东部基于最大似然的系统发育框架,重建了迄今为止古代东亚及东南亚人群的最高分辨率Y染色体系统发育树。古代欧亚东部Y染色体系统发育拓扑结构显示出与现代人群相似的模式,为现代与古代东亚及东南亚人群之间提供了直接的时空联系。研究结果在古代个体或整合的古代与当代东南亚大陆群体中,识别出跨多个奠基者支系的北向南迁移信号。例如,O2a2b1a1a,被广泛认为是黄河流域早期农民的代表,在距今5662年的仰韶遗址被识别出来。其后代随后向北扩张进入蒙古,向西进入中国西北,向南进入青藏高原,并进一步进入泰国。其他广泛分布的支系,如 O2a2b1a2a,最初出现在黄河流域距今5300至3250年之间,后来到达了青藏高原和越南。相比之下,如今在东南亚大陆普遍存在的单倍群,如 O1a、O1b1a1a1 和 O2a2a1a2,则表现出与长江流域南向迁移一致的模式,良渚、吴城和大溪文化的发现证明了这一点。此外,O2a1b1a1a1a 和 O2a2b2 的最早实例发现于山东,而属于 C2b1b1 和 N1b2 支系的古代个体分别主要发现于庙子沟遗址和青藏高原。这些时空模式为多波南向迁移提供了有力证据。
为了更好地理解这些迁移的影响,我们结合时空数据和先前研究,识别了与东亚和东南亚人群共享的生存策略相关的单倍群。在这些支系中,C2b1a等十余个支系被归类为与粟作农业考古背景相关的支系,而 O1a1a1等六个支系则被归类为与稻作农业考古背景相关的支系。北方粟作相关的支系在中国人群中广泛分布,北方汉族个体的平均频率为49.73%。相比之下,稻作相关的支系在中国南方占主导地位。此外,与西伯利亚采集狩猎考古背景相关的支系对中国北方和西南部群体的遗传构成有显著贡献,而与西部欧亚畜牧考古背景相关的支系则存在有限。正如预期的那样,稻作相关的单倍群在东南亚大陆最为常见。值得注意的是,一些群体表现出北方粟作相关支系的频率升高,例如越南的西拉族、杭基族和拉基族,以及泰国的克伦族、掸族和尼阿库尔族。相关分析揭示了显著的地理分布模式:粟作相关的单倍群与纬度呈正相关,而稻作相关的支系则与纬度呈负相关。同时,采集狩猎和畜牧相关的支系也与地理坐标显示出显著的相关性,但方向相反:前者与经度正相关,后者与经度负相关。然而,这种相关性反映的是地理关联而非因果关系。将所有可用数据基于单倍群归属和地理位置整合到八个元群体后,新石器时代农民对东亚的遗传贡献变得更加明显。北方汉族和少数民族主要携带与粟作农民相关的支系,同时也显示出北向扩张的稻作农民及其他狩猎采集者的显著影响。相比之下,南方汉族和少数民族则主要继承了稻作农民支系,但似乎也与南向扩张的粟作农民发生了混合。这些新石器时代的农业群体进一步塑造了古代及现代东南亚大陆人群的遗传景观。这些发现表明,北方粟作农民的初始南迁影响了东亚南部人群的父系遗传结构,随后北方和南方农民的进一步南迁,共同促成了东南亚大陆群体当前的父系遗传景观。

图5.古代东亚及东南亚人群的最高分辨率Y染色体系统发育树

图6.将现代东南亚男性(约2.3 Mb覆盖率)和古代样本置于最大似然树中

图7.古代农业人群对当今中国和东南亚大陆的父系遗传贡献
广东省毒品实验技术中心(国家毒品实验室广东分中心)刘超院士,重庆医科大学基础医学院唐任宽教授、王萌鸽副教授,以及四川大学考古科学中心/四川大学华西医院何光林副研究员为该文的共同通讯作者。重庆医科大学基础医学院硕士研究生刘运辉、重庆医科大学基础医学院王萌鸽副教授、四川大学考古科学中心/四川大学华西医院何光林副研究员为论文的共同第一作者。研究工作得到国家自然科学基金、重庆市自然科学基金等多项省部级科研项目的资助。