李飞飞预言AI下一个10年属于空间智能,她的洞察从何而来?

2025-11-17

当很多人还专注于大模型优化时,美国斯坦福大学教授、人工智能(AI)领军人物李飞飞已经着眼于未来10年。


近日,李飞飞领导的World Labs(世界实验室)宣布3D世界生成模型Marble向全体用户开放,它仅用一张图片就能创造出一个持久存在的三维虚拟世界。同时,她发表长篇博客称:“AI的下一个10年,属于空间智能。”这不仅是技术产品的发布,更是对AI未来发展方向的判断,李飞飞看到了什么呢?


三维生成:惊艳与不足同在


Marble官宣开放后,众多开发者和爱好者纷纷进行测试,结果有喜有忧。


美国得克萨斯大学达拉斯分校的一位助理教授上传了一张实验室照片,Marble就为他生成了一个可“步入”的完整虚拟实验室,逼真程度令人赞叹。一位建筑设计师上传自己设计的深圳清华大学研究院新大楼图片,模型直接生成了一个可供穿梭探索的虚拟建筑,该设计师激动地表示:“欢迎AI终于来到我的世界——那个属于空间的世界。”


这些成功案例显示出Marble在内容理解、智能修补和光影还原方面能力强大,为未来社交、娱乐和工作方式带来了丰富想象空间。但在细节上,它还不够“真实”。


上海温哥华电影学院三维动画与视觉特效专业系主任徐一然试用后表示,整体还行,但存在不少不合理之处,还不能直接使用。另一位测试者直言画面较模糊,尤其是面对依赖想象力的概念图或空间分布复杂的室外场景时,效果未达预期。


徐一然试用Marble模型画面


上海人工智能研究院首席数字官、技术与创新中心主任林圆圆认为,尽管Marble目前呈现的内容与实际应用还有较大差距,但它具有划时代意义,标志着AI创新范式正从“语言理解”向“物理交互”转变。


空间智能:AI走进物理世界的“新基石”


李飞飞明确指出,空间智能不是多模态的一个分支,而是下一代AI的技术基础,这将彻底改变大模型与世界交互的逻辑。


要理解这种范式转变,需了解李飞飞对智能的划分。她将智能分为“说话的智能”和“做事的智能”。当下热门的大语言模型属于前者,基本单位是词汇;而空间智能属于后者,基本单位是像素和体素。李飞飞表示:“语言是人类的语言,而3D是自然的语言。”


明白了这一点,就能理解Marble与众多三维多模态大模型的本质区别。林圆圆解释,所有模型都需要数据支持,三维多模态大模型的数据基础是文本和图片,能让生成内容“看起来像三维的”。而空间智能的最终目标是让AI在三维世界中“有效行动”,所以它需要三维数据,即标注了重量、硬度、运动、受力情况等物理语义的数据。


空间智能离不开3D数据标注。 模速空间供图


林圆圆说:“目前,打造三维数据还处于早期阶段,不仅数据匮乏,连标准和采集设备都不完善,但这也是一个巨大的机遇。”比如构建“工业零件三维语义数据集”,需要标注螺栓的拧紧力矩、零件的耐高温阈值等。这要求空间智能领域融合计算机视觉、物理学、机器人学等多学科知识,这也是未来具身智能和机器人行业的核心竞争力。


数据标注:发展空间智能的“捷径”


李飞飞投身空间智能,与她20年前的选择一脉相承,都源于对“数据”的深刻认识。


2009年,她创建的ImageNet数据集,通过为海量图像打标签并与卷积神经网络(CNN)结合,引发了深度学习革命。如今,她押注空间智能并选择三维数据标注,是同一逻辑的延续和升级。因为大模型的发展证明,高质量数据是关键,大模型出现“幻觉”可能是数据数量和复杂度不足。


AI制图。


复旦大学教授、元宇宙与虚实交互联合研究院院长赵星认可这一方向,他认为理解和智能生成完整三维世界对机器人、元宇宙等场景和产业有重要价值。元宇宙的三大核心——数字世界构建、交互硬件研发和数字资产创新,都需要人工智能生成内容的支持,“世界模型”是很好的方向之一。在有高效率、低成本生成三维数字内容的工具前,元宇宙部分方向难以落地。


在上海,诸多通往元宇宙的探索同步进行。上海人工智能实验室开发的Aether4D世界重建模型在具身导航领域探索应用;华为、腾讯、中国移动等企业在数字人化身领域持续投入;上影集团用3DGS技术生成数字资产。这些布局都指向虚拟与现实的深度融合。


AI正在学习“触摸”三维世界的每一处,为具身智能、机器人、元宇宙等需要与真实环境互动的应用提供核心动力。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com