在复旦大学生命科学学院特聘教授徐书华的实验室里,关于大人群自然队列基因多样性的研究正按下快进键:原本,他的团队收集海量数据后,需要用集装箱,才能把数据硬盘送到分布在各地的超算中心做分析,别说研究,仅仅是复制和上传这些数据的时间,便得以年为单位。如今,借助复旦大学的CFFF平台(Computing for the Future at Fudan),数据传输的速度降到以周为单位,同时通过“东数西算”,使用设在内蒙古的智算设施,以更低成本完成超大数据分析。
CFFF平台是中国高校规模最大的云上科研智能计算平台。基于已有的真实世界数据,该平台通过人工智能技术,生成比拟真实的虚拟大数据,为人口健康与医药研发建立自然人群基线参考图谱和提供模型及理论支撑。
党的二十届三中全会要求深化科技体制改革,“坚持面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康,优化重大科技创新组织机制,统筹强化关键核心技术攻关”。
对大学来说,重点布局和建设一批面向未来的高水平研究平台,加速在基础研究领域实现重大突破,必须通过科技创新力量、要素配置,推动科研范式变革,提升科研能级。放眼全球,由人工智能与各学科领域紧密结合的AI for Science(AI4S),被认为是“科研第五范式”。大力推进AI4S,则需要有完善的科研基础设施——智能计算平台。
复旦大学联手阿里云、中国电信建立的算力基础设施——CFFF平台,由位于复旦大学江湾校区的“近思一号”和位于内蒙古乌兰察布的“切问一号”组成,涵盖GPU算力、CPU算力、分级冷热存储、大数据处理平台等,可支持千卡千亿参数大模型研发、万核高性能计算、大规模数据加工等作业。一年多来,该平台不仅为科研加速,还在全校构建起AI4S的科研生态,推动基础研究进一步升级。
“目前,复旦四校区的所有实验设备通过大数据环网都能高速接入CFFF平台。”CFFF平台运营负责人孙祥告诉记者,全校有超300个科研团队在这个智算平台上开展研究,几乎都是跨学科团队。
一批垂直领域的大模型也在平台上诞生。上海科学智能研究院院长、人工智能科学家漆远教授联合海洋与大气学院团队完成的伏羲气象大模型便是其中之一。这一大模型相较欧洲中期天气预报中心EC,速度提升了超1000倍。此外,在CFFF平台上活跃的大模型还包括:国内首个多模态的对话式大语言模型——MOSS大语言模型;结合3D分子构象,预测药物物理化学属性的ADMET预测模型;研究长序列、细粒度的基因调控关系的女娲DNA大模型;比物理模型计算速度提升1000倍以上的气泡微观波动AI模型等。
“目前,大模型多是基于语言文本的训练,缺少对科学问题的理解和思考,而科学语料库的构建有助于大模型理解和思考科学问题。”漆远告诉记者,只有能够理解科学问题,并且帮助科学家发现更多科学问题的模型,才真正称得上人工智能。
伴随着越来越多的科研团队在CFFF平台上开展研究,一个专业的科学语料数据库也正同步建设。
复旦大学发展规划处负责人吴力波教授介绍,随着物质科学、生命科学、气象科学、海洋科学等不同学科的学者在CFFF平台上开展研究,他们的研究资料为平台不断“成长”提供更丰富的“养分”,甚至可以说,科学家们的科研和智算平台本身的“成长”成为一个不断互相促进的过程。
基于CFFF平台海量数据,吴力波团队也正在用人工智能方法构建全球最大的气候政策语料数据库。“可以简单理解为,我们正在研发一个可以理解气候变化以及相关知识的智能体,相当于‘培养’一个具备多学科背景且能理解气候变化原理的‘博士’,为未来开展气候变化研究和制定决策提供支撑。”
复旦大学国家发展与智能治理实验室的团队正通过CFFF平台,训练中华早期文明的大模型,尝试把多模态的语言文字、历史地理、文物典籍等数据进行智能化处理,并围绕科学研究、文化传播等多种场景进行理解和挖掘。此外,一批社会科学研究者正联手开发智能社会治理大模型,借助人工智能技术设计社会实验,并通过进一步验证,由此突破过去社会科学研究更多基于经验、有限的数据分析以及田野调查的局限性。