Sci. Adv. | Y染色体“时间密码”,重构东亚新石器时代农业人群南迁东南亚的数千年迁徙足迹

四川大学华西医院罕见病研究院及实验医学科/四川大学考古科学中心何光林副研究员团队,联合重庆医科大学基础医学院法医学系与西部法医学中心唐任宽教授、王萌鸽副教授团队于2026年2月18日在Science Advances发表了题为“Multiple southward migrations of Neolithic Chinese farmers into Southeast Asia revealed from large-scale Y-chromosome sequences”的研究论文。该研究通过整合迄今覆盖地域最广、族群最全的东亚及东南亚古今人群Y染色体基因组资源,成功构建了该区域高分辨率、经时间校准的父系谱系发育框架。针对中国南方湿热环境导致的古DNA保存困难和遗传信息缺失问题,研究团队创新性地融合计算生物学与群体遗传学模型,采用“以今溯古、以古推今”的研究策略,系统挖掘古今整合基因组资源,重建了东亚农业人群向东南亚扩张的父系演化框架。研究通过构建具有明确时间标尺的Y染色体时空谱系框架,系统揭示了新石器时代农业人群自中国南方多批次南迁的时空动态,并从父系遗传角度证实东南亚大陆的壮侗语、苗瑶语等多语系人群主要起源于中国南方,为“农业-语言共扩散”假说提供了来自父系遗传视角的详实证据。该成果不仅为古DNA匮乏区域的人群演化研究提供了新的方法路径,也为法医基因组学中的父系遗传溯源与精准鉴识提供了关键技术支撑。研究系统论证了基于大规模古今基因组数据的研究范式在演化遗传学与法医学交叉领域的创新力与应用前景。
东亚大陆与东南亚交汇地带是人类迁徙与农业扩散的核心廊道,也是解析东亚族群形成及东南亚人群起源的关键区域。Y染色体非重组区具有谱系信息清晰、突变速率稳定的特点,可用于追溯深层演化时间,是解析该区域父系人口动态的关键证据。然而,中国南方湿热气候严重制约古DNA的有效保存,致使该地区遗传历史长期停留在零散、片段的认知阶段。既往研究受限于样本量不足及古今数据整合欠缺,未能建立具备时间分辨率的人群演化框架。为突破上述局限,本研究规模性地整合古今人群Y染色体基因组资源,建立了湿热地区古DNA匮乏情境下父系遗传历史重建的研究范式,为阐明中华民族各族群的形成与发展及其与东南亚人群形成史的关联提供了关键的遗传学证据。研究团队基于古今整合基因组资源,系统重构了东亚及东南亚地区族群的父系演化框架,取得以下四项主要发现:
(1)构建高分辨率、时间校准的东亚及东南亚古今族群Y染色体系统发育框架:研究依据高质量且高覆盖度Y染色体序列,基于分子钟理论,构建了覆盖O、N、D、Q等主要单倍群的高分辨率系统发育框架,并将1748条东南亚低覆盖度的现代Y染色体序列与780条古代Y染色体序列精准定位于对应分支。这一具备“时间标尺”的演化框架,克服了湿热环境下古DNA测序质量欠佳而限制人类精细演化历史的解析,为该区域人群谱系分化与扩张事件提供了新石器时代早中期的时间标尺,为追溯东亚及东南亚族群父系起源历史提供了新视角。
(2)精准重建东亚南向迁徙核心父系奠基者谱系及其扩张时间窗口:研究明确识别出O1a-M119、O1-F1252、O1-F789、O2-M7、O2-Z25921五大单倍群,这些单倍群构成了农业人群南向迁徙的核心父系谱系。贝叶斯天际线图分析显示,上述谱系均在距今约4000至3500年间经历了显著的有效群体扩张。研究从父系遗传视角证实了农业技术革新是中国南方族群人口扩张与南向扩散的根本驱动力。
(3)系统揭示“农业-语言共扩散”假说的父系遗传机制,证实中国南方为东亚及东南亚族群形成的核心策源地:基于单倍群共享分析与网络结构图,研究绘制出清晰的谱系-语系关联图谱。O2-M7及其下游分支在苗瑶语系人群中高度富集;O1-M119与O1-F789主要分布于壮侗语系与南岛语系人群;O1-F1252在南亚语系人群中高频分布;O2-Z25921则反映藏缅语族人群的南向扩张轨迹。谱系地理分析进一步显示,上述单倍群均呈现显著的“北高南低”频率分布模式,上游分支集中于中国南方,下游衍生分支密集分布于东南亚大陆及岛屿,形成明显的“中国南方起源、多波次南向扩张”父系遗传轨迹。这一发现不仅为稻作农业与壮侗、苗瑶、南亚、南岛语系人群自中国南方共扩散的语言学假说提供了迄今最详尽的谱系证据,更从父系遗传角度证实中国南方是东亚及东南亚诸多族群形成的源头区域,系统阐明了中国族群形成与发展的内在动力及其对东南亚人群形成的塑造作用。
(4)构建古DNA匮乏背景下父系历史重建的研究范式,为全球同类研究提供可推广范本:针对中国南方湿热环境下古DNA保存困难这一长期技术瓶颈,研究团队采用“现代高覆盖度谱系定年+古代低覆盖度样本定位”的创新研究策略。通过最佳路径法,将数百条低覆盖度古代样本精准定位于高精度时间校准树上,在不依赖古DNA的条件下,成功实现了对古代人群父系遗传成分的直接溯源。该方法为全球热带、亚热带等古基因组资源匮乏地区的人群历史研究提供了全新的解决方案,充分展现了融合大规模现代与古代基因组数据在演化遗传学领域的价值与广阔应用前景。
本研究通过大规模Y染色体基因组的整合分析,构建了涵盖高分辨时间标尺的东亚及东南亚人群父系演化框架,从父系遗传视角系统证实新石器时代农业人群的多波次南迁及其对东南亚现今各族群遗传格局的塑造作用。研究成果不仅将中国南方确立为欧亚大陆东部农业-语言共扩散的关键枢纽,也为深入理解中华民族各族群的形成与发展及其对东南亚人群形成的贡献提供了关键遗传学证据。同时,研究团队指出,未来需进一步扩大东南亚岛屿及南岛语系等人群的样本覆盖,并整合常染色体与母系遗传证据,全面解析该区域性别偏向性迁徙与混合的完整历史图景。

图1. Y染色体系统发育树及本研究中古代和现代样本的地理分布。

图2. 古代及现今人群中O2和O1支系的最大似然系统发育树。

图3. 时间校准的Y染色体系统发育树揭示东亚和东南亚人群的分化与扩张模式。

图4. 主要父系支系的有效群体大小及谱系地理分布模式。

图5. 东亚Y染色体系统发育树中此前未知节点与累积节点的随时间变化模式。

图6. 东亚与东南亚人群间的单倍型共享模式及系统发育网络关系。

图7. 从东亚到东南亚的南向人群迁徙总体模式。
四川大学华西医院罕见病研究院及实验医学科/四川大学考古科学中心何光林副研究员,重庆医科大学基础医学院法医学系与西部法医学中心唐任宽教授、王萌鸽副教授为该文的共同通讯作者。重庆医科大学基础医学院硕士研究生刘运辉、博士研究生罗林焘、博士研究生王智勇,以及四川大学华西医院罕见病研究院/四川大学考古科学中心博士研究生封宇航为论文的共同第一作者。广东省毒品实验技术中心(国家毒品实验室广东分中心)刘超院士、四川大学考古科学中心原海兵教授,以及课题组的硕士和博士研究生对本研究亦有重要贡献。本研究获得了国家自然科学基金、重庆市自然科学基金等多项省部级科研项目的资助。