作为汉文化的重要载体之一,汉语方言在全球拥有超过14亿的母语人口,其传播与演化的机制一直是人类学界与群体遗传学界关注的焦点。
在汉语方言的演化历史中,由自然灾害、战争或经济因素驱动的大规模人群迁徙以及科举制度、印刷术所促进的社会学习等因素都在其中扮演了重要角色。
此前,对汉语方言传播模式的研究大多依赖于历史材料和语言调查材料的比较总结,并辅以遗传证据为佐证。然而,由于缺乏对汉语方言内部精细结构的定量分析,以及对于汉族人群中语言差异和遗传差异间的一致性检验,目前尚难以全面刻画汉族人群语言演化的全貌。
5月13日,复旦大学现代语言学研究院、复旦大学智能复杂体系基础理论与关键技术实验室张梦翰研究团队(POPLANG)携手生命科学学院徐书华教授团队及金力院士团队在《自然-人类行为》(Nature Human Behaviour)发表题为《大规模词汇和遗传比对支持汉族人口扩张和文化传播的混合模式》的重要研究成果。
该研究系统整合了语言学、群体遗传学和生态学等多学科的理论和方法,深入解析了汉语方言内部的精细化结构和地理分布规律,同时结合现有的群体遗传数据,系统分析了中国各地语言和群体遗传结构之间的关系,透视了汉文化传播和融合的多重模式,为探究汉族人群的人口活动与语言文化交融的复杂历史提供了全新的视角。
通过定量分析,解析汉语方言内部结构和地理分布规律
在研究中,团队首先通过对926个方言点的1018个词汇特征进行量化分析和空间投影,并发现汉语方言的多样性与地理分布密切相关(见图 1),其词汇差异呈现明显的南北梯度分布,而大型山川河流作为地理屏障,进一步促进了方言群体之间的分化。
其中,长江成为南北方言群体的地理分界线。
长江以南的多种方言,如闽语、粤语、吴语等,各具独特的词汇特点,显示出显著的差异;
秦岭-淮河则进一步区分了北方官话和南方官话,秦岭-淮河线以北的北方官话内部一致性较高,而其以南的江淮官话和西南官话则展现出方言连续体的特点,其方言差异随地理距离而逐渐累积。
在此之上,汉语方言邻接网络(图 1b)的结构表明,这些方言变体的形成不仅与地理分布有关,还与区域间广泛的语言横向交流密切相关。
图1汉语方言主成分分析、网络分析及祖源构成推断
为进一步揭示汉族人群人口活动与方言融合历史,研究团队通过基于贝叶斯祖源推断方法,解析了各汉语方言的内部祖先成分(见图 1c)。柱形图中不同颜色区块对应的成分代表了汉语方言发展历程中通过谱系分化或深度交融而形成的共有词汇特征,体现了方言群体间的分化和接触历史。
另一方面,研究团队利用词汇特征频率数据构建了最大似然谱系树,在此基础上建模重构方言融合事件,推断了参与融合的方言群体、融合发生的方向以及对被融合方言词汇系统的影响比例(见图 2)。
图2 汉语方言融合模式推断
综合多种方法分析的结果,研究团队发现中国中部地区方言呈现出多重来源的语言接触痕迹,形成了所谓的“方言熔炉”,特别是江淮官话、西南官话和赣语的使用地区,方言的特征显示了多样的语言成分集成,从而构成了复杂的方言体系。如此深度的语言接触和融合反应了不同方言群体长期共存以及互相作用的结果。
这一系列定量分析所揭示的语言融合模式与汉族历史上自北向南的大规模迁徙以及“江西填湖广,湖广填四川”等历史事件密切相关。
据团队介绍,人群迁徙与融合不仅改变了人口分布,也促成了语言的深度交融。
早在西晋(公元265-316年)时期,由于战乱导致的“衣冠南渡”使得大量北方人口迁居江淮地区,与当地语言相互作用,引起南北方言融合。而作为自人群自北向南迁徙的主要通道之一,江西地区在唐朝之后人口和经济快速发展,并在南方经济贸易交流中扮演重要角色。当地赣语人群为了满足农业发展需要向湖广地区发展,极大地促进了赣语与湘语和西南官话之间的交流。同样,后续经济得到发展的湖广地区也向饱受战乱的川渝地区输出了大量移民,使得西南官话传播到川渝地区。
由此可见,历史上复杂的人口活动驱动了方言的传播和融合,而这些语言变异的证据在研究中均得到了精细化的定量解读。
比对语言和遗传结构,发现汉语方言传播与融合模式
为探究方言传播与融合背后的驱动力,研究团队对比了中国汉族人群的语言结构和遗传结构之间的关系,发现语言、基因、地理距离三者间分别存在两两强相关性。但当基因距离保持不变时,语言和地理分布之间的相关性变得不显著,这表明语言差异的形成伴随着人群遗传结构的变化即人口扩张模式(demic diffusion)在汉语方言演化中起到了主要作用。
图3 汉族遗传与语言跨学科对证
通过进一步的线性回归分析(图3),团队还揭示了各省份南北方基因成分和语言成分的比例,反映出汉语方言传播的复杂地区性模式。
在中国中部地区,人群扩张模式尤为显著,北方基因流与北方语言成分对中部地区具有相似的影响程度,对应着大规模人群迁徙造成的语言-基因同步融合。
在云南、四川、贵州和重庆的西南官话地区,文化传播模式(cultural diffusion)的影响更为明显。在有限的北方基因流之下,北方方言特征在这些地区得以快速传播,与明清时期的驻军和屯田带来的社会文化影响密不可分。
在浙江和上海的吴语区、福建的闽语区等,语言同化(language assimilation)在方言演变中也发挥了重要作用,表现为在显著的南北基因融合背景下,当地词汇系统却仍然保持高比例的南方特征。这一现象体现了吴语、闽语等地区性强势方言对于外来的北方移民语言的同化作用。
多学科交叉融合,新文科领域的又一重要探索
近年来,东亚、东南亚文明探源研究持续受到考古学、语言学等学科的关注。该团队长期致力于采用多学科交叉分析的研究方法探索东亚及东南亚地区的语言演化史,并联合遗传、考古等多学科证据共同探讨整个区域群体和文化演化背后的驱动力。
2019年,团队重要成果《语言谱系证据支持汉藏语系在新石器时代晚期起源于中国北方》发表于《自然》主刊,成为首登该刊物的中国语言学研究成果和复旦新文科建设的重要里程碑。2023年,团队成功重构了侗台语谱系结构,估计了原始侗台语的分化年代,并推断了其语言传播模式。
在回答科学问题的同时,团队还持续构建计算方法,用于分析语言扩散模式及其背后驱动力。2024年初,团队开发了语言速度场估计法,为语言扩散研究提供新视角、新方法。该方法弥补了传统谱系地理法的不足,可以帮助研究者在语言演化不符合谱系树的情况下推断出语言的扩散中心和路径。
此次的研究过程中,量化分析方法与多学科交叉融合是贯穿全程的鲜明特征。
为建立具有代表性的词汇数据集,团队专门开发了特定软件工具,从三卷《汉语方言地图集》中进行特征数据的快速提取,速度相较传统方法提升了三倍。与此同时,团队还花费一年多的时间,整合语言学、群体遗传学和生态学等多学科的理论和方法,设计了一套多学科集成的计算框架,对大规模语言数据和遗传数据进行深入分析和对证。
最终,团队成功解析了汉语方言的精细化结构,并探讨了影响汉语方言形成的潜在驱动力,强调了人口扩张模式之外,社会和文化因素在语言演化中的关键作用,这一发现为了解汉族人群的活动历史提供了关键的跨学科依据,并为进一步研究中国语言的演化及“语言-遗传-文化”共演化提供了重要的参考。
据悉,近年来复旦大学持续布局新文科建设,大力推动研究方法创新。此次团队在汉语方言传播模式研究的重要突破,成为学校在新文科领域的又一重要探索。
团队表示,期待更多对文理交叉研究领域感兴趣的同学加入课题组,共同探索多学科融合创新,为新文科科研添砖加瓦。
复旦大学人类表型组研究院博士生杨承坤、复旦大学生命科学学院科研助理张晓曦为共同第一作者;中央民族大学严实副教授、复旦大学生命科学学院人类遗传学与人类学系博士生杨思哲、吴佰慧,复旦大学中文系博士生王之艺、硕士生游丰硕,复旦大学文物与博物馆学系崔越同学,香港大学语言学与现代语言系谢霓同学对该文做出重要贡献;复旦大学现代语言学研究院、复旦大学智能复杂体系实验室张梦翰研究员、复旦大学生命科学学院徐书华教授、金力院士为共同通讯作者。项目得到了国家自然科学基金委、国家重点研发计划等项目的支持。