复旦大学张梦翰团队联合金力团队开发语言速度场估计法,揭示语言扩散模式

作者:现代语言学研究院摄影: 视频: 来源:现代语言学研究院发布时间:2024-01-08

2024年1月2日,张梦翰课题组联合金力院士课题组在《自然-通讯》(Nature Communications)发表了题为“Inferring language dispersal patterns with velocity field estimation”的研究成果。该团队结合了跨学科的研究方法与理论,开发了用于推断语言扩散模式的新法——语言速度场估计法(Language velocity field estimation)。该方法弥补了传统的谱系地理法的不足,可以在语言演化不符合谱系树的情况下,推断出语言的扩散中心和路径。运用语言速度场估计法,该团队探究了印欧语、汉藏语、班图语、和阿拉瓦克语的扩散中心与路径。研究结果显示,这些语言的扩散路径与从古DNA和考古材料推测的全新世人口迁移路径高度一致。此外,它们的扩散中心也与古代农业与新石器文化中心相吻合。这个研究结果说明了在过去的一万年里,语言扩散与人群扩张和文化传播紧密相连。这项研究成果不仅为语言扩散研究提供了新的视角和方法,还为理解人群活动和文化演化提供了重要依据。

在过去一万年里,由于农业的发展,人类经历了大量的语言扩散、人群扩张和文化传播事件。考虑到人是语言的载体,而语言又是文化的载体,研究语言的扩散可以为探究人群活动和文化演化提供新的线索。语言扩散通常使用谱系地理法进行推断。这种方法假设语言的演化符合谱系树模型,并将随机游走运用于该谱系树上来推断祖先语言的地理坐标。然而,语言的演化受到大量的横向交流影响(例如语言借用和区域扩散),并不完全符合谱系树模型。因此,依赖谱系树的谱系地理法无法精确地重构语言扩散。如何不依赖于谱系树来推断语言的扩散成为了人类语言学研究中的一个重要挑战。

为了解决上述挑战,张梦翰团队基于物理学中的速度场理论和动力学方程、遗传学中的DNA突变模型、统计学中的马尔可夫过程与经济学中的最优传输理论,开发了名为“语言速度场估计法”(Language velocity field estimation)的新算法。该方法可以不依赖谱系树推断出语言的扩散路径与中心(见图1)。在模拟验证中,该团队基于1,000个已知扩散模式的模拟数据集,充分验证了语言速度场估计的有效性与鲁棒性。

1 语言速度场估计法(Language velocity field estimation)的算法流程

运用语言速度场,该团队进一步探究了世界范围内四个著名的语系/语族扩散模式(见图2)。它们分别为横跨欧亚的印欧语系、位于亚洲的汉藏语系、位于非洲的班图语系以及位于美洲的阿拉瓦克语系。研究结果显示,印欧语系起源于新月沃土(古代欧洲的农业中心)并向西传播到欧洲,向东传播到印度次大陆;汉藏语系起源于黄河流域的陕西省(位于仰韶新石器文化中心),向西南传播到青藏高原,向南传播到东南亚大陆;班图语族起源于喀麦隆与尼日利亚地区(非洲的古代农业中心),向东南方向传播到整个非洲中部与南部;阿拉瓦克语系起源于马德拉河流域(南美洲的古代农业中心),向北横跨亚马逊低地传播至沿海地区。该结果说明在过去一万年里,语言的扩散是伴随着人群扩张和文化传播一起进行的。

2 世界范围内语言、人群、农业/新石器文化扩散路径与中心:(a)基于古DNA与考古证据推测的人群扩张和农业/新石器文化传播的路径与中心;(b) 基于语言速度场估计法推测的语言扩散的中心与路径

除了模拟验证与实例检验外,该团队还将语言速度场估计法与另外四种常用的语言扩散方法进行了全面的比较(见图3)。这四种方法为谱系地理法、多样性法、中心法以及最短距离法。比较结果说明了语言速度场估计法在方法论与实例运用中具有优越性。

3 语言速度场估计法与四种常用语言扩散推断方法的比较:(a)语言速度场估计法与四种其他方法推算的语言扩散中心;(b)模型比较结果总结

论文第一作者为复旦大学生命科学学院2019级直博生杨思哲;第二作者为复旦大学人类表型组研究院博士孙晓茹;复旦大学生命科学学院院士金力和复旦大学现代语言学研究院、复旦大学智能复杂体系实验室研究员张梦翰为共同通讯作者。该项工作获得了国家自然基金委、国家重点研发计划、国家社会科学基金、ERC欧盟项目基金、上海市重大科技项目、上海市曙光学者计划等项目的支持。

论文链接:https://www.nature.com/articles/s41467-023-44430-5

制图:实习编辑:苏尧祎责任编辑:李斯嘉

相关文章

文化校历

新闻分类

推荐视频

图说复旦

新闻排行

周排行 月排行

  • 联系我们
    fudan_news@163.com
    021-65642268