学术文化

苏昊：AI的下一个里程碑在哪？

作者：苏昊摄影：成钊视频：来源：第六十届校庆科学报告会发布时间：2026-05-29

机器能识别人脸、理解文字、生成图像，是否意味着它真正理解了世界？当一个杯子被推向桌沿，它能否判断下一秒会发生什么？当人工智能从“看见”走向“触碰”、从“感知”走向“交互”，下一代智能的关键命题也随之浮现。

5月27日，在复旦大学第六十届校庆科学报告会上，复旦大学浩清特聘教授、通用物理智能研究院（GPI）首任院长苏昊受邀作题为《物理智能：从感知到交互》的报告，围绕“让机器理解物理世界”这一核心问题，系统阐释物理智能的发展路径、关键瓶颈与未来图景。以下为报告全文。

物理智能：从感知到交互苏昊

各位老师、同学们，大家好。

我是苏昊，通用物理智能研究院院长。之前在美国加州大学圣地亚哥分校任教，于今年4月正式加入复旦大学。非常荣幸在建校121周年之际，作为第六十届校庆科学报告会的报告人，与大家分享我这些年一直在做的事情。

今天分享的主题是《物理智能：从感知到交互》。这个主题背后是一个很朴素的问题，过去几十年我们投入了大量精力让机器“看和读得更明白”——识别人脸，理解文字，生成图像。但是它真的理解这个世界了吗？推一下桌子上的杯子，它知道会发生什么吗？如果用两倍的力再推一次，大模型知道杯子的运动会有什么不同吗？今天我想围绕这个问题，和大家聊聊我的思考。

先简单介绍一下我的经历。我是2008年出国深造，今年回来，在美国取得了博士学位和终身教职，中间是18年的求学和工作岁月。说起来很长，但回头看其实只做了一件事——让机器理解物理世界。这条路不是一开始就规划好的，是一步一步走过来的。

我最早是做二维感知，参与了ImageNet和一些重要的计算机视觉算法的开发，机器第一次“看得清”了。ImageNet把深度学习推到了台前，整个AI领域从此被点燃。但很快发现了一个问题，机器知道这是一把椅子，可它知道椅子是能坐的吗？知道放不平会倒吗？它只是认识了物体的外表，但并不理解物体本身。于是我的研究转向3D，领导了一系列关于空间结构的数据和算法工作，开创了3D深度学习领域，让机器开始理解物体的几何结构。在工业界的推动下，自动驾驶领域起飞了。但是问题又来了，这些都是几何层次的理解，物理和交互一整层都不在里面。所以我得出了结论，我们要的不是更高的维度，而是一个可以发生动作的世界。

想清楚了，我就开始推动训练机器人用的可交互的物理仿真平台。在我们的SAPIEN仿真器里，机器终于可以像小朋友一样去试错、成长，在虚拟世界里试着去推抽屉、开门、感知力的反馈，在交互中调整自己对世界的认识。“观察不够，必须交互”这句话，终于从想法变成了行动。

在人工智能领域，原本有人负责更好地“看世界”，有人负责更好地“行动”，两股力量各自前行。但是科研经验让我认识到，要走向通用人工智能，必须把“看”和“做”统一在同一个框架里、同一闭环里，就是在“做”中“学”。

基于这个判断，我联合了多所大学和企业的前沿实验室，推动了“具身智能”这个方向的学科定义与社区凝聚。为了给社区提供一个跨方向联合科研的基础设施，我在自己的实验室做了ManiSkill平台，这是一个开源的机器人操作技能学习平台，可以系统性地回答：机器人操作跟这个世界的交互到底难在哪里。经过社区的共同努力，我们发现了一条清晰的规律，就是简单的操作技能卡点在视觉感知，但是复杂的操作技能卡点还是在于物理直觉、物理理解。

一扇门的关节阻尼可能只改变了20%，但这就有可能让训练了上百万次的机器人操作策略彻底失效——因为模型学到的还不是关于门的物理规律，而只是在简单地、机械地模仿动作，是关于具体的门该怎么样打开的。所以，科研推动的每一步，都是因为上一步有解决不了的问题才往下走，从认识物体、到理解空间、到理解物理。这条路最终把我带到了今天的方向——通用物理智能，也把我带到了复旦，因为复旦要做的事与我要做的事是同一件事。

到底什么是物理理解？先讲一个大家都经历过的场景。桌上有两个纸箱，大小差不多，你要把其中一个搬到旁边的桌子上。在伸手前，你的大脑已经在判断：这个箱子有多重？桌面滑不滑？箱子结实吗？这些基本的判断，你在零点几秒之内就完成了，你马上去试，甚至自己都没有意识到在做这件事。就像一个婴儿，在学会说话之前，就已经知道松手后积木会掉下来，推一下球它会滚走。这种能力不是从书本上学到的，而是在无数次触碰、抓握、跌打中打磨出来的。但是，今天最先进的AI面对同样的场景，还是做不到。今天的AI可以识别出它是一个纸箱，但是没有办法切身地知道这个纸箱拿起来是什么感觉。

所以，“物理理解”的本质是什么？物理理解的本质，不是“看见了什么”，而是“如果我做点什么，会发生什么”——给定一个动作，预测它所带来的物理后果。

为什么物理理解这么难？我们可以借用认知科学的框架来看。套用皮亚杰的发展心理学框架，智能可以分为四个层级：第一层是感知智能——看懂图像；第二层是空间智能——理解空间的三维几何结构；第三层是物理智能——理解物理的交互、物理相关的因果；第四层是行为智能——就是做出决策和规划。有意思的是，我这十八年的研究历程——从 ImageNet 解决感知问题，到 ShapeNet、PointNet 解决 3D 空间理解问题，再到 SAPIEN、ManiSkill 解决物理仿真与行为交互问题——恰好与这四层一一对应。这十八年，不是我对照教科书设计的路线，而是研究、回答问题的过程把我推到了同一个结构面前。所以，当问题驱动的研究和认知科学的理论走向了同一张图，说明我们可能触碰到了一些本质的东西。

这里还有一个值得注意的事实：自然界中，第三层能力，也就是物理智能的能力，极其稀有，只有鸦科和类人猿才具备，比如乌鸦往瓶子里投石子喝水，灵长类动物使用工具。所以，物理理解不是感知的简单升级，而是一次认知的质变。而我们现在，正站在物理智能的门口。我认为，AI的下一个里程碑，不是更会说话，而是理解物理世界，从而学会操作。

当前到底缺什么？从结果看，可以讲缺一种新的世界模型。世界模型是具身智能的“物理常识”。过去两年，最流行的世界模型探索有两类，几何世界模型擅长空间理解，但不太懂物理；视频世界模型擅长视觉生成，但本质上还是像素层面的预测，同样没有真正的物理层面的理解。两类模型都回答不了最初提出的那个问题——推一下一个杯子会怎样，用两倍的力推一下又会怎样。因为互联网上不会有这种数据。真正需要的是第三种——物理交互世界模型，它既理解空间，又理解物理规律，能预测行动带来的后果。但这种模型，目前尚处于早期发展阶段。不同路线都在同一个地方碰壁——物理智能层。瓶颈的另一面，就是机遇。谁能率先补上这个物理智能层，谁就有可能定义下一代人工智能的范式。这正是GPI，也就是我领导的通用物理智能研究院要做的事。

GPI主要的目标有两个。第一，推动物理智能的最终实现。GPI的核心任务是构建物理交互世界模型，让机器真正理解“推一下会怎样”。这背后牵扯的科学问题非常深，涉及物理学、数学、认知科学、控制论、机器学习的交叉地带。第二，培养下一个十年的AI领军人物。我们看重两样东西：高品位的科研眼光，能判断什么问题值得去做；还有长周期的探索耐心，能在一个方向上坚持足够久。我们不要只做论文的搬运工，而要做问题的提出者和解决者。所以，在GPI，论文不是目标，而是副产品。真正的标尺是能否在真实世界中实现智能体的有效行动与自主决策。

具体怎么做？

三个关键词：交叉、交互、验证。

一、交叉。物理智能是多学科交叉的问题，单一学科是解决不了的。我们不设学科边界，数学、物理、计算机、人机交互、脑机接口等，围绕要解决的问题汇聚人才。

二、交互。交互数据是物理智能的石油。物理理解不可能仅从视频和文本中学到，而必须通过主动交互获取。你看一万个小时别人骑自行车，你还是不会骑，必须主动交互获得物理经验。这里我们会推动仿真平台和真实数据采集双线并行。

三、验证。真实数据是终审。仿真里跑得再好，到了真实世界，如果失败了，也不算数，真实世界的表现才是最终的标准。复旦有数学和物理的深厚根基，有发展新工科的决心，有上海的产业生态——这是做物理智能最需要的土壤。

最后，我想分享一个态度，我把它叫做“谨慎的乐观”。

先说“乐观”。大语言模型这一轮，坦率地说，中国是追赶者。但物理智能不一样，全世界都还在起跑线上，核心问题还没有被解决。中国又有其他方面——尤其是产业链能力——的优势，所以我们有机会主导这个方向，我们有一个定义范式的窗口期。最好的加入时机，是在一件事情最难、也最值得做的时候。

再说“谨慎”。现在我们看到很多精彩的demo，机器人叠衣服、做饭、整理房间，看起来很震撼。但这些demo与真正的通用能力之间，仍然存在关键断层，短期内达到大语言模型那种泛化程度，还不现实，因为如何让机器实现深度理解的问题还没有解决。但在更长的时间尺度上，方向是清晰的，具身智能将进入制造业、服务业、养老行业等，我们正在走向一个人机共存的时代。而通往那个时代的桥梁，正建立在今天对物理智能的扎实探索之上。

最后，用两句话总结今天的报告：没有理解，就没有泛化；没有交互，就没有理解。这是我二十余年人工智能研究生涯走下来最深的一个体会。

复旦校训讲：“博学而笃志，切问而近思。”“切问”是从切身处发问，不凭空玄想；“近思”是从实践中思考，不好高骛远。这和物理智能的方法论有一种天然的契合——不是坐在那里“想”，而是伸出手去“碰”，在碰撞中获得对世界的理解。这正是我们在复旦要践行的研究哲学。在复旦，与未来智能同行！

谢谢大家！

制图：实习编辑：潘心诺责任编辑：李斯嘉

导航

专家视点

苏昊：AI的下一个里程碑在哪？

相关文章

文化校历

新闻分类

新闻排行

周排行月排行

导航

专家视点

苏昊：AI的下一个里程碑在哪？

相关文章

文化校历

新闻分类

新闻排行

周排行 月排行

周排行月排行