6月24日,上海市智能视觉计算协同创新中心主任、复旦大学计算机科学技术学院姜育刚教授团队的“多元协同的视觉计算理论与方法”项目获国家自然科学奖二等奖。
“我们的研究聚焦于视觉计算,它是人工智能的核心方向,旨在赋予机器‘看’的能力。简单来说,就是让机器像我们人一样能够准确识别出图像、视频中的物体、场景、动作、交互等,甚至能在此基础上预测几秒后发生的事件。”姜育刚说。
近期,复旦正推进AI4S教学与科研体系建设,计算机视觉是人工智能重要且热门的一大方向。姜育刚团队成果与复旦将推出的“AI大课”中计算机视觉等核心课程息息相关,体现出最前沿的科技进展、最顶尖的科研经验与教育教学的融汇贯通。
17年前,在AI并不那么受关注、甚至有些“冷门”时,姜育刚就进入视觉计算领域。回望来路,站在领奖台的姜育刚说,“我们不是‘预见’,只是感兴趣,愿意迎难而上。”
AI赋机器慧眼
破解视觉数据“万花筒”
“尽管最近十几年来视觉计算取得了较大的进展,复杂动态视觉数据的理解这块硬骨头还没有被完全啃下。”姜育刚说,“拿视频数据举例,不同于静态图像,因为有了时间这个维度,视频蕴含非常丰富的时序、声音、文本等信息,这些多模态信息交织在一起给动态视频数据的理解带来极大挑战,这也是当前视觉计算领域亟待解决的难题。”
“我们的想法是首先将多元信息解耦,然后在高维空间中施加约束,从而充分挖掘并利用多元信息间的关联关系,这对于复杂视觉数据的理解特别重要。”姜育刚介绍。这一想法独立于视觉计算架构本身,无论计算架构如何演进,从过去的统计机器学习方法、到卷积神经网络、再到最新的多模态大模型,都可以深入挖掘视觉数据的多元特性并进行关联建模。
“多元协同的视觉计算理论与方法”项目赋予机器“慧眼”,让机器有识别与分辨的能力,不畏复杂动态视觉数据之交织莫测,助力破解视觉计算领域的难题。“譬如,机器能识别出沙滩、椅子,也能懂得椅子在沙滩上的自然规律,并基于多元信息间的关联关系,进一步施展拳脚、发挥作用。”
从高铁到手机
视觉计算应用场景广阔
手机拍照,身后有路人入镜,或者对背景里的物品不满意怎么办?修图需要花费一定时间,最近流行的AI拍照“消除功能”,只需手指一滑,便可轻松消除。这一华为手机应用,正来源于姜育刚团队的视觉计算研究。
“学术研究不能只是空中楼阁,而应该切切实实地解决生产生活中的痛点问题。”姜育刚团队致力于将视觉计算技术的成果落地应用,牵头研制的系统多次服务关键设施运营维护等国家重大需求。
“铁路的基础设施包括轨道扣件、电务线缆等,传统检测方式是人工巡检,效率特别低,经常出现漏检的情况。”基于视觉计算的理论成果,姜育刚团队与铁道科学研究院基础设施检测研究所联合攻关,研制的系统成功解决轨道扣件等高铁设施的故障检测难题。这一系统已实际应用多年,多次成功发现并排除了重大安全隐患。
此外,姜育刚团队还与行业领先企业开展紧密的合作,致力于解决企业应用场景中的痛点问题等。
并非预见
只是迎难而上17载
“算起来,我们的第一篇项目论文发表在2007年。”在视觉计算的研究之路上,姜育刚团队已经走了17年,取得一系列具有国际影响力的创新成果,引发大量跟踪研究,相关成果被国内外同行评价为“具有开创性”。
为何在人工智能尚未肇兴时,团队研究如此具有超前的预见性?被问及此,姜育刚回答:“技术在不停地升级迭代,最近10年进步极快。从过去的传统统计机器学习方法,再到2010年以后的深度学习,无论技术架构如何演变,在处理视觉数据的时候,都需要重视不同层次的多元关系建模,解决问题、提升性能。我们并非‘预见’,只是感兴趣,愿意迎难而上。”
大规模数据集是视觉计算至关重要的组成部分,对于模型的训练和性能提升起着关键作用。秉持着“开源开放是推动技术发展的重要方式”这一理念,姜育刚团队长期致力于数据集、工具集的开放共享,让更多研究者可以从中受益。
“科学研究的乐趣,往往就藏在那些看似不可能解决的问题之中。”这是姜育刚和学生交流时常挂在嘴边的一句话。教书育人十数载,在他看来,每位学生都是独一无二的,因此要挖掘并激发每个人的潜能。不仅自己在视觉计算领域持续深耕,姜育刚更热衷将这份热爱与探索精神传递给自己的学生,让越来越多的年轻人在科研道路上坚定前行。
“我们正处在人工智能飞速发展、赋能百业的时代,视觉计算具有广阔的研究与应用前景。”姜育刚说,“我们希望做的,是推动视觉计算技术进一步发展,为人类提供更多便利、创造更多价值。”
未来,团队将进一步开拓视觉计算领域。