顶级AI科学家李飞飞说：机器人的进化离不开空间智能

2024-06-07

智东西6月4日报道，今年4月，著名计算机科学家、斯坦福教授李飞飞在温哥华举行的2024年TED会议上发表了题为《有了空间智能，AI就会理解现实世界》的15分钟演讲，分享了她对空间智能及其改变世界的看法。

值得注意的是，从2024年初到2025年底，李飞飞在斯坦福大学的个人资料显示，她处于部分休假状态。根据路透社的报道，她目前正在创办一家创业公司，创业的方向是空间智能。

在演讲中，李飞飞提到，随着神经网络算法的出现，GPU能力的提高，以及大数据的帮助，计算机视觉领域发展迅速。

目前，研究人员不再满足于只让计算机看到世界，而是在观察世界的三维空间时，追求让计算机了解世界，学习知识，采取行动。这就是所谓的“空间智能”（Spatial Intelligence）。

李飞飞指出，行为的冲动是所有具有空间智能的生物的天性。如果我们想在目前的AI实现能力上有所突破，充分发挥当前数字寒武纪大爆发的潜力，空间智能是不可或缺的。

与此同时，她还提醒我们，实现空间智能并不容易。开发人员需要慎重考虑，确保AI技术始终以人为本。但是如果我们真的能够开发出造福人类的空间智能计算机和机器人，我们一定会创造一个更加美好的世界。

下面是李飞飞4月TED演讲的完整编译：

01.看世界了解世界，是一种智能催化剂。

我想向你展示一些东西。确切地说，我想展示的是一片空虚。这就是5.4亿年前的世界:简单而无尽的黑暗。世界之所以黑暗，不是因为缺乏光源，而是因为缺乏能看到世界的眼睛。

在这个世界上，阳光可以穿过一公里深的海底，海底的热液喷嘴也在发光，生命在这里蓬勃发展。但是在这些古老的水域里，没有眼睛能看到这些场景。没有视网膜，没有角膜，没有晶状体。没有人见证所有这些光辉和生命。

过去，“看”这个概念并不存在，没有生物能真正看到世界。直到这一刻到来。

三叶虫出现了，这是地球上第一种能感知光的生物。我们目前只知道它们出现的原因。但它们是我们现在习惯的生活环境中的第一批居民，也是第一批发现除了自己之外还有其他东西的生物。他们意识到世界是由许多其他“自我”组成的。

视觉被称为寒武纪生命爆发背后的驱动力。这是一个动物物种大量进入化石记录的阶段。起初，这些动物只是被动地接受光源，并逐渐演变成更积极的行为。神经系统开始进化。视力转化为洞察力，理解转化为行动，这些都催生了智力。

02.三股力量推动AI时代的到来是不可能的。

现在，我们不再满足于仅仅依靠大自然赋予我们的视觉智能。好奇心驱使我们创造出像我们这样甚至更聪明的机器。

九年前，在这个舞台上，我报告了AI支部领域计算机视觉的初步进展。当时，三股强大的力量首次聚集在一起:第一股力量是一个算法家族，被称为神经网络；第二股力量是一个快速的特殊计算硬件，即GPU；三是大数据，比如我的实验室当时花了几年时间建立的ImageNet照片数据库。三股力量共同推动了AI时代的到来。

现在我们取得了很大的进步。当时只是给照片贴上标签是一个很大的突破。然而，这些算法的速度和准确性迅速提高。这一进展由我的实验室主导的年度ImageNet大赛进行了评估。在这张图中，你可以看到每年的改进和一个里程碑模型。

此外，我们还创建了一种算法，可以分割目标或预测它们之间的动态关系，这是我的学生和合作伙伴的工作成果。

不仅如此，还记得上次我展示的第一个可以用自然语言描述照片的计算机视觉算法吗？那是我和我的杰出学生安卓。 Karpathy合作的有效性。那时，我似乎很幸运地问他：Andrej，Andrej笑着说：“哈哈，那是不可能的，我们能让电脑做相反的操作吗？”

但是正如这条推文所说，不久前，不可能的事变成了可能。

得益于一系列的扩散模式，它们促进了生成式AI算法的发展。根据人类提醒的句子，这些算法可以生成全新的照片和视频。许多人已经看到了OpenAISora最近令人印象深刻的结果。

但是即使没有大量的GPU，我的学生和我们的合作伙伴也开发了一种叫做Walt的视频模型。我们的模型发布日期领先于Sora几个月。你现在看到的是其中的一些结果。

这些结果还有优化的空间。看猫的眼睛，猫虽然在水下，但并没有弄湿自己。这真是一场灾难。（cat-astrophe）。

03.看到世界远远不够空间智能，让看到变成行动。

过去只是一个序言，我们将从这些错误中学习，创造我们想象的未来。在这个未来，我们希望AI能够帮助我们完成一切，或者有能力帮助我们完成一切。

几年来，我一直强调，拍一张照片并不意味着看到和理解拍摄的内容。今天，我想补充一点。光看是不够的。

看看是为了做和学。

当我们在三维空间和时间中向世界付诸行动时，我们也在学习。我们正在教如何更好地阅读和做到这一点。这自然是由“空间智能”创造的。（Spatial Intelligence）驱动良性循环。为了展示“空间智能”的用处，我想给你看这张图。如果你看到后有做任何事情的冲动，请举手。

在短短的一秒钟里，你的大脑看到了玻璃的几何形状，它在三维空间中的位置，以及它与桌子、猫等一切的关系。你可以预测接下来会发生什么。

行为的冲动是所有具有空间智能的生物的天性，这将感知与行动联系在一起。如果我们想推动AI超越目前的能力水平，我们需要的不仅仅是看和说的AI。我们应该能够做出行为的AI。

04.空间智能已经取得了初步的进步。机器人可以为你做饭。

事实上，我们正在取得令人兴奋的进展。最近，空间智能的里程碑时间是教会计算机观察、学习、行动以及更好地学习和行动。这并不容易。

进化空间智能需要数百万年的时间。这种智能需要依靠眼睛接收光源，将二维图像投射到视网膜上，然后让大脑将这些数据转换成三维信息。

最近，谷歌的一组研究人员开发了一种算法，可以将一组照片转换成三维空间(如图所示)。

我们的学生和我们的合作伙伴进一步创建了一个可以将一个输入图像转换成三维形状的算法(如图所示)。

还记得我们谈过的计算机程序，可以把人类的句子转换成视频吗？密歇根大学的一组研究人员找到了一种方法，将这句话转换成三维房间设计(如图)。

我在斯坦福的同事和他们的学生开发了一种算法，它可以从一张图片中产生无限可能的空间，供观众探索(如图)。

这些都是未来各种可能的萌芽。一个可以把我们整个世界变成数字的方法，通过建模展示世界丰富而不同的未来。

自然，这些事情都是在我们自己的头脑中秘密完成的。空间智能技术有望为我们的集体意识实现这一点。随着空间智能的加速发展，一个新的良性循环正在我们面前进行。

这种相互作用正在催化机器人学习。这是具体智能系统的关键组成部分，需要理解和与三维世界互动。

十年前，我实验室的ImageNet数据库帮助训练计算机，让它们看得见。现在，我们正在用行为和动作来训练计算机和机器人，使它们能够在三维世界中行动。

然而，我们没有收集静态图像，而是开发了一个由三维空间模型驱动的模拟环境，这样计算机就可以以无限多样的概率学习行动。你现在看到的是我实验室领导的Behavior项目中机器人学习的例子。

我们在机器人语言智能方面也取得了令人兴奋的进展。我的学生和合作伙伴是第一批在这方面取得进步的团队。基于大型语言模型的输入，他们开发的机械臂现在可以根据口头指令执行各种任务。

比如打开抽屉或者拔出充电手机，或者用面包、生菜、西红柿做三明治，甚至给用户放纸巾。一般来说，我想在三明治里放更多的材料，但这是一个好的开始。

未来空间智能有望在医疗等领域发挥重要作用。

在古代，在原始的海洋中，看到和感知环境的能力开启了寒武纪大爆发的帷幕，不同的生活形式开始互动。现在，光辉正在触摸数字大脑。

空间智能不仅可以使机器与其他机器互动，还可以与人类和真实或虚拟的三维世界互动。随着这种未来逐渐成为现实，它将对许多人的生活产生深远的影响。

让我们以医疗为例。在过去的十年里，我的实验室一直在使用AI来处理病人预后不良和医护人员过度劳累的问题。

我们正在与斯坦福医学院和合作医院的工作人员合作，试图使用智能传感器。这些传感器可以检测医护人员进入病房时是否正确洗手，并在患者处于危险(如摔倒)时跟踪手术器械或提示护理团队。

我们把这些技术当成一种环境智能，就像一双额外的眼睛。它们确实可以起到一些作用。但我希望为我们的病人、医护人员和护理人员提供更多的互动帮助，他们迫切需要一个真正能做点什么的帮手。

想象一下，如果有一个可以运输医疗用品的独立机器人，医护人员只需要致力于患者。通过使用增强现实技术，我们还可以引导外科医生进行更安全、更快、创伤更小的手术。

想象一下，严重瘫痪的患者通过脑电波控制机器人来完成我们常见的日常任务。是的，你可以通过脑电波。在我实验室最近的一项试点研究中，我们可以看到这种未来的雏形。

在这个例子中，机械臂的控制是通过非侵入性脑电帽收集的脑波信号来实现的。这个机械臂现在正在煮一顿生日快餐。

06.数字生命寒武纪大爆发即将来临，但必须确保技术始终以人为本。

五亿年前，视觉的出现彻底颠覆了原本黑暗的世界。它开始了一个影响最深远的进化过程:动物世界中智能化的发展。

在过去的十年里，AI的惊人进步也令人震惊。但我相信，要想充分发挥数字寒武纪大爆发的潜力，就必须为计算机和机器人提供空间智能。这就是大自然为我们提供的。

这是一个激动人心的时刻。我们可以教我们的数字伙伴学习推理，教他们与我们称之为家的三维空间互动，带来更多我们可以探索的新世界。

实现这一未来并不容易。在付诸行动时，我们需要仔细考虑，始终以人为本的技术开发。

但是，如果我们能够以正确的方式促进技术的发展，这些具有空间智能的计算机和机器人不仅会成为实用的工具，还会成为可靠的伙伴，提高和提高我们的生产力，促进人类社会的发展。他们还尊重人类个人的尊严，促进人类的共同繁荣。

最让我兴奋的是，AI将有更强的理解、洞察和空间感知能力，并与我们一起不懈努力，以更好的方式创造一个更好的世界。谢谢你。

结论：空间智能开启AI发展新篇章将成为下一代AI的“原爆点”

在九年前的TED演讲中，李飞飞介绍了深度学习的开始，ImageNet，这也为当代AI奠定了基础。现在，她再次站在TED的舞台上，诠释了“空间智能”的新概念，引导AI走向更高的水平。

李飞飞本人在很多场合指出，AI领域能获得的资源太有限了。她呼吁政府为AI探索的发展提供必要的支持。现在，李飞飞已经暂时离开象牙塔，最终创业，并在硅谷著名风险投资公司a16z投资。我们也期待她在学术界之外给AI领域带来新的惊喜。

本文来自微信微信官方账号的“智东西”（ID：zhidxcom），作者：陈骏达，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

康师傅方便面「悄悄」的在涨价

有多少农民工治愈了北京的隔离栏？

深挖霸王茶姬24组核心数据，能否超越星巴克？

今年爱上“平替”的年轻人，正在开始“整顿”消费市场。

被骂惨的江南步衣，半年赚了5.7亿

项目推荐

迪瓜租机

康老板 · 氧疗堂