苏昊:AI的下一个里程碑在哪?

作者:苏昊摄影:成钊 视频: 来源:第六十届校庆科学报告会发布时间:2026-05-29

机器能识别人脸、理解文字、生成图像,是否意味着它真正理解了世界?当一个杯子被推向桌沿,它能否判断下一秒会发生什么?当人工智能从“看见”走向“触碰”、从“感知”走向“交互”,下一代智能的关键命题也随之浮现。

527日,在复旦大学第六十届校庆科学报告会上,复旦大学浩清特聘教授、通用物理智能研究院(GPI)首任院长苏昊受邀作题为《物理智能:从感知到交互》的报告,围绕“让机器理解物理世界”这一核心问题,系统阐释物理智能的发展路径、关键瓶颈与未来图景。以下为报告全文。

物理智能:从感知到交互苏昊

各位老师、同学们,大家好。

我是苏昊,通用物理智能研究院院长。之前在美国加州大学圣地亚哥分校任教,于今年4月正式加入复旦大学。非常荣幸在建校121周年之际,作为第六十届校庆科学报告会的报告人,与大家分享我这些年一直在做的事情。

今天分享的主题是《物理智能:从感知到交互》。这个主题背后是一个很朴素的问题,过去几十年我们投入了大量精力让机器“看和读得更明白”——识别人脸,理解文字,生成图像。但是它真的理解这个世界了吗?推一下桌子上的杯子,它知道会发生什么吗?如果用两倍的力再推一次,大模型知道杯子的运动会有什么不同吗?今天我想围绕这个问题,和大家聊聊我的思考。

先简单介绍一下我的经历。我是2008年出国深造,今年回来,在美国取得了博士学位和终身教职,中间是18年的求学和工作岁月。说起来很长,但回头看其实只做了一件事——让机器理解物理世界。这条路不是一开始就规划好的,是一步一步走过来的。

我最早是做二维感知,参与了ImageNet和一些重要的计算机视觉算法的开发,机器第一次“看得清”了。ImageNet把深度学习推到了台前,整个AI领域从此被点燃。但很快发现了一个问题,机器知道这是一把椅子,可它知道椅子是能坐的吗?知道放不平会倒吗?它只是认识了物体的外表,但并不理解物体本身。于是我的研究转向3D,领导了一系列关于空间结构的数据和算法工作,开创了3D深度学习领域,让机器开始理解物体的几何结构。在工业界的推动下,自动驾驶领域起飞了。但是问题又来了,这些都是几何层次的理解,物理和交互一整层都不在里面。所以我得出了结论,我们要的不是更高的维度,而是一个可以发生动作的世界。

想清楚了,我就开始推动训练机器人用的可交互的物理仿真平台。在我们的SAPIEN仿真器里,机器终于可以像小朋友一样去试错、成长,在虚拟世界里试着去推抽屉、开门、感知力的反馈,在交互中调整自己对世界的认识。“观察不够,必须交互”这句话,终于从想法变成了行动。

在人工智能领域,原本有人负责更好地“看世界”,有人负责更好地“行动”,两股力量各自前行。但是科研经验让我认识到,要走向通用人工智能,必须把“看”和“做”统一在同一个框架里、同一闭环里,就是在“做”中“学”。

基于这个判断,我联合了多所大学和企业的前沿实验室,推动了“具身智能”这个方向的学科定义与社区凝聚。为了给社区提供一个跨方向联合科研的基础设施,我在自己的实验室做了ManiSkill平台,这是一个开源的机器人操作技能学习平台,可以系统性地回答:机器人操作跟这个世界的交互到底难在哪里。经过社区的共同努力,我们发现了一条清晰的规律,就是简单的操作技能卡点在视觉感知,但是复杂的操作技能卡点还是在于物理直觉、物理理解。

一扇门的关节阻尼可能只改变了20%,但这就有可能让训练了上百万次的机器人操作策略彻底失效——因为模型学到的还不是关于门的物理规律,而只是在简单地、机械地模仿动作,是关于具体的门该怎么样打开的。所以,科研推动的每一步,都是因为上一步有解决不了的问题才往下走,从认识物体、到理解空间、到理解物理。这条路最终把我带到了今天的方向——通用物理智能,也把我带到了复旦,因为复旦要做的事与我要做的事是同一件事。

到底什么是物理理解?先讲一个大家都经历过的场景。桌上有两个纸箱,大小差不多,你要把其中一个搬到旁边的桌子上。在伸手前,你的大脑已经在判断:这个箱子有多重?桌面滑不滑?箱子结实吗?这些基本的判断,你在零点几秒之内就完成了,你马上去试,甚至自己都没有意识到在做这件事。就像一个婴儿,在学会说话之前,就已经知道松手后积木会掉下来,推一下球它会滚走。这种能力不是从书本上学到的,而是在无数次触碰、抓握、跌打中打磨出来的。但是,今天最先进的AI面对同样的场景,还是做不到。今天的AI可以识别出它是一个纸箱,但是没有办法切身地知道这个纸箱拿起来是什么感觉。

所以,“物理理解”的本质是什么?物理理解的本质,不是“看见了什么”,而是“如果我做点什么,会发生什么”——给定一个动作,预测它所带来的物理后果。

为什么物理理解这么难?我们可以借用认知科学的框架来看。套用皮亚杰的发展心理学框架,智能可以分为四个层级:第一层是感知智能——看懂图像;第二层是空间智能——理解空间的三维几何结构;第三层是物理智能——理解物理的交互、物理相关的因果;第四层是行为智能——就是做出决策和规划。有意思的是,我这十八年的研究历程——从 ImageNet 解决感知问题,到 ShapeNetPointNet 解决 3D 空间理解问题,再到 SAPIENManiSkill 解决物理仿真与行为交互问题——恰好与这四层一一对应。这十八年,不是我对照教科书设计的路线,而是研究、回答问题的过程把我推到了同一个结构面前。所以,当问题驱动的研究和认知科学的理论走向了同一张图,说明我们可能触碰到了一些本质的东西。

这里还有一个值得注意的事实:自然界中,第三层能力,也就是物理智能的能力,极其稀有,只有鸦科和类人猿才具备,比如乌鸦往瓶子里投石子喝水,灵长类动物使用工具。所以,物理理解不是感知的简单升级,而是一次认知的质变。而我们现在,正站在物理智能的门口。我认为,AI的下一个里程碑,不是更会说话,而是理解物理世界,从而学会操作。

当前到底缺什么?从结果看,可以讲缺一种新的世界模型。世界模型是具身智能的“物理常识”。过去两年,最流行的世界模型探索有两类,几何世界模型擅长空间理解,但不太懂物理;视频世界模型擅长视觉生成,但本质上还是像素层面的预测,同样没有真正的物理层面的理解。两类模型都回答不了最初提出的那个问题——推一下一个杯子会怎样,用两倍的力推一下又会怎样。因为互联网上不会有这种数据。真正需要的是第三种——物理交互世界模型,它既理解空间,又理解物理规律,能预测行动带来的后果。但这种模型,目前尚处于早期发展阶段。不同路线都在同一个地方碰壁——物理智能层。瓶颈的另一面,就是机遇。谁能率先补上这个物理智能层,谁就有可能定义下一代人工智能的范式。这正是GPI,也就是我领导的通用物理智能研究院要做的事。

GPI主要的目标有两个。第一,推动物理智能的最终实现。GPI的核心任务是构建物理交互世界模型,让机器真正理解“推一下会怎样”。这背后牵扯的科学问题非常深,涉及物理学、数学、认知科学、控制论、机器学习的交叉地带。第二,培养下一个十年的AI领军人物。我们看重两样东西:高品位的科研眼光,能判断什么问题值得去做;还有长周期的探索耐心,能在一个方向上坚持足够久。我们不要只做论文的搬运工,而要做问题的提出者和解决者。所以,在GPI,论文不是目标,而是副产品。真正的标尺是能否在真实世界中实现智能体的有效行动与自主决策。

具体怎么做?

三个关键词:交叉、交互、验证。

一、交叉。物理智能是多学科交叉的问题,单一学科是解决不了的。我们不设学科边界,数学、物理、计算机、人机交互、脑机接口等,围绕要解决的问题汇聚人才。

二、交互。交互数据是物理智能的石油。物理理解不可能仅从视频和文本中学到,而必须通过主动交互获取。你看一万个小时别人骑自行车,你还是不会骑,必须主动交互获得物理经验。这里我们会推动仿真平台和真实数据采集双线并行。

三、验证。真实数据是终审。仿真里跑得再好,到了真实世界,如果失败了,也不算数,真实世界的表现才是最终的标准。复旦有数学和物理的深厚根基,有发展新工科的决心,有上海的产业生态——这是做物理智能最需要的土壤。

最后,我想分享一个态度,我把它叫做“谨慎的乐观”。

先说“乐观”。大语言模型这一轮,坦率地说,中国是追赶者。但物理智能不一样,全世界都还在起跑线上,核心问题还没有被解决。中国又有其他方面——尤其是产业链能力——的优势,所以我们有机会主导这个方向,我们有一个定义范式的窗口期。最好的加入时机,是在一件事情最难、也最值得做的时候。

再说“谨慎”。现在我们看到很多精彩的demo,机器人叠衣服、做饭、整理房间,看起来很震撼。但这些demo与真正的通用能力之间,仍然存在关键断层,短期内达到大语言模型那种泛化程度,还不现实,因为如何让机器实现深度理解的问题还没有解决。但在更长的时间尺度上,方向是清晰的,具身智能将进入制造业、服务业、养老行业等,我们正在走向一个人机共存的时代。而通往那个时代的桥梁,正建立在今天对物理智能的扎实探索之上。

最后,用两句话总结今天的报告:没有理解,就没有泛化;没有交互,就没有理解。这是我二十余年人工智能研究生涯走下来最深的一个体会。

复旦校训讲:“博学而笃志,切问而近思。”“切问”是从切身处发问,不凭空玄想;“近思”是从实践中思考,不好高骛远。这和物理智能的方法论有一种天然的契合——不是坐在那里“想”,而是伸出手去“碰”,在碰撞中获得对世界的理解。这正是我们在复旦要践行的研究哲学。在复旦,与未来智能同行!

谢谢大家!

制图:实习编辑:潘心诺责任编辑:李斯嘉

相关文章

文化校历

新闻分类

新闻排行

周排行 月排行

  • 联系我们
    fudan_news@163.com
    021-65642268