1月2日,张梦翰课题组联合金力院士课题组在《自然-通讯》(Nature Communications)发表了题为“Inferring language dispersal patterns with velocity field estimation”的研究成果。该团队结合了跨学科的研究方法与理论,开发了用于推断语言扩散模式的新算法——语言速度场估计法(Language velocity field estimation)。该方法弥补了传统的谱系地理法的不足,可以在语言演化不符合谱系树的情况下,推断出语言的扩散中心和路径。运用语言速度场估计法,该团队探究了印欧语、汉藏语、班图语、和阿拉瓦克语的扩散中心与路径。研究结果显示,这些语言的扩散路径与从古DNA和考古材料推测的全新世人口迁移路径高度一致。此外,它们的扩散中心也与古代农业与新石器文化中心相吻合。这个研究结果说明了在过去的一万年里,语言扩散与人群扩张和文化传播紧密相连。这项研究成果不仅为语言扩散研究提供了新的视角和方法,还为理解人群活动和文化演化提供了重要依据。
在过去一万年里,由于农业的发展,人类经历了大量的语言扩散、人群扩张和文化传播事件。考虑到人是语言的载体,而语言又是文化的载体,研究语言的扩散可以为探究人群活动和文化演化提供新的线索。语言扩散通常使用谱系地理法进行推断。这种方法假设语言的演化符合谱系树模型,并将随机游走运用于该谱系树上来推断祖先语言的地理坐标。然而,语言的演化受到大量的横向交流影响(例如语言借用和区域扩散),并不完全符合谱系树模型。因此,依赖谱系树的谱系地理法无法精确地重构语言扩散。如何不依赖于谱系树来推断语言的扩散成为了人类语言学研究中的一个重要挑战。
为了解决上述挑战,张梦翰团队基于物理学中的速度场理论和动力学方程、遗传学中的DNA突变模型、统计学中的马尔可夫过程与经济学中的最优传输理论,开发了名为“语言速度场估计法”(Language velocity field estimation)的新算法。该方法可以不依赖谱系树推断出语言的扩散路径与中心。在模拟验证中,该团队基于1,000个已知扩散模式的模拟数据集,充分验证了语言速度场估计法的有效性与鲁棒性。
运用语言速度场,该团队进一步探究了世界范围内四个著名的语系/语族扩散模式。它们分别为横跨欧亚的印欧语系、位于亚洲的汉藏语系、位于非洲的班图语系以及位于美洲的阿拉瓦克语系。研究结果显示,印欧语系起源于新月沃土(古代欧洲的农业中心)并向西传播到欧洲,向东传播到印度次大陆;汉藏语系起源于黄河流域的陕西省(位于仰韶新石器文化中心),向西南传播到青藏高原,向南传播到东南亚大陆;班图语族起源于喀麦隆与尼日利亚地区(非洲的古代农业中心),向东南方向传播到整个非洲中部与南部;阿拉瓦克语系起源于马德拉河流域(南美洲的古代农业中心),向北横跨亚马逊低地传播至沿海地区。该结果说明在过去一万年里,语言的扩散是伴随着人群扩张和文化传播一起进行的。
除了模拟验证与实例检验外,该团队还将语言速度场估计法与另外四种常用的语言扩散方法进行了全面的比较。这四种方法为谱系地理法、多样性法、中心法以及最短距离法。比较结果说明了语言速度场估计法在方法论与实例运用中具有优越性。
论文第一作者为复旦大学生命科学学院2019级直博生杨思哲;第二作者为复旦大学人类表型组研究院孙晓茹博士;复旦大学生命科学学院金力院士和复旦大学现代语言学研究院、复旦大学智能复杂体系实验室的张梦翰研究员为共同通讯作者。该项工作获得了国家自然基金委、国家重点研发计划、国家社会科学基金、ERC欧盟项目基金、上海市重大科技项目、上海市曙光学者计划等项目的支持。
论文链接:
https://www.nature.com/articles/s41467-023-44430-5