李飞飞给AGI发展“降温”,强调AI需根本性创新
智东西11月17日消息,昨日,斯坦福大学教授、World Labs联合创始人兼CEO李飞飞在海外科技播客Lenny's Podcast上,分享了她对AI未来的独到见解。她认为,AI的发展不能永远依赖Scaling Law,更需要根本性的技术创新;而“通用人工智能”(AGI)更像是一句营销话术,而非严谨的科学术语。
李飞飞回顾20多年科研与创业经历,总结出现代AI的黄金配方是神经网络、大数据与GPU的结合。即便如今ChatGPT取得成功,用的仍是相同配方。
然而,她警告称,单靠扩大数据规模和算力的“堆砌”,不足以实现智能的突破。当前的AI仍难以完成许多对人类来说轻而易举的任务,比如从视频中精确数清物体数量,或是像牛顿那样从观测数据中推导物理定律。李飞飞认为,我们距离真正具备创造力、抽象能力和情感智能的AI系统还有很长的路要走,“如今还有太多AI做不到的事情”。
对于业界热议的AGI概念,李飞飞持保留态度。她觉得AGI定义模糊,作为科学家,她更关注如何解决AI面临的根本性技术挑战,而非陷入概念争论。

作为创业者,李飞飞坦言AI领域竞争空前激烈。过去“简单模型+海量数据”的成功经验,即所谓的“苦涩的教训”,在机器人等涉及物理世界的应用中并不完全适用。自动驾驶发展近二十年仍未完全成熟就是典型例子。而且数据获取难、硬件受限,使得在三维空间中操控物体的机器人技术面临比自动驾驶技术更大的挑战。
尽管道路漫长,李飞飞始终坚信,AI的进步是几代人积累的成果,光靠当前的“语言智能”是不够的。人类在许多关键场景中依赖的是空间智能,研究空间智能,不仅对机器人、具身智能的发展有极大作用,还能在具身层面增强人类,使我们在空间理解、物体操作和现实世界任务中获得新的力量。
以下是对李飞飞本场访谈的精华整理,完整内容可参考文末链接:
01. 从寒冬走出后,现代AI迎来黄金配方
在访谈中,李飞飞回忆起刚涉足AI领域的经历。2000年,她开始在加州理工大学攻读博士学位,作为第一代机器学习研究员,研究重点之一是神经网络。当时,AI处于少有人问津的“寒冬”,公众不关注,资金也少。
李飞飞的学术兴趣聚焦在视觉智能上。她认为,如果人类的智能极度依赖视觉,那么机器的智能也必须从“看懂世界”开始。于是,她在博士阶段和教学生涯早期,选择了物体识别这一基础又艰难的方向。
当时,数据对AI的重要价值尚未得到广泛认可。随着研究深入,李飞飞和她的学生逐渐意识到:大数据,是让AI活起来的关键要素。
于是,她决定收集互联网中所有关于物体的图像数据。2006年左右,ImageNet项目启动。最终,该项目收集了1500万张图片、2.2万个物体类别,并拥有每年举办的挑战赛。
这个看似疯狂的项目成了现代AI的火种。2012年,辛顿团队使用ImageNet数据与两块普通游戏GPU,训练出了突破性的神经网络模型。大数据、神经网络和GPU这三者的结合,被李飞飞称为“现代AI的黄金配方”。
十年后,ChatGPT横空出世,让全世界真正意识到AI的力量,其背后的三大要素仍是神经网络、大数据、GPU。李飞飞认为,两者区别仅在于规模。
虽然常有人称她为“AI教母”,但李飞飞更强调:AI的进步是几代研究者共同积累的结果。
02. 我不知道AI和AGI有什么区别,图灵或许也不知道
AGI还有多远,这是AI学者、大牛和企业高管访谈必答题。在李飞飞看来,AGI概念耐人寻味,很少有人能清晰定义。
李飞飞直言:“我进入AI领域是受‘机器能否像人一样思考和行动’这一问题启发。从这个角度看,我不知道AI和AGI有什么区别。”她还设想,如果艾伦·图灵还健在,被问及AI与AGI的区别时,可能也只会耸耸肩说:“我在上世纪40年代问的是同样的问题。”
AI是引领李飞飞前进的“北极星”,她不想陷入定义AI与AGI的争论,认为AGI更像营销话术,而非科学术语。作为科学家和技术专家,她不在意他人如何称呼这项技术。
李飞飞强调,尽管更大的数据集、更多的GPU和扩展现有模型架构仍能带来性能提升,但AI的发展不能只依赖Scaling Law。
当前的AI依然无法完成许多儿童都能轻松做到的任务,比如在视频中准确数清椅子数量;更无法像牛顿或爱因斯坦那样,从观测中推导出新的自然规律。即便给AI提供现代仪器收集的全部数据,它仍无法重建17世纪的运动定律。
这些例子表明,我们距离真正具备创造力、抽象能力和情感智能的AI还有很长的路,未来需要根本性的技术创新,而非简单堆叠算力。
近日,李飞飞发布万字长文,详解空间智能概念,并提出AI的下一个前沿是空间智能。在昨日访谈中,她也表达了类似观点。她认为,仅靠语言智能是不够的,人类在许多关键场景中依赖的是空间智能,如火灾、交通事故或自然灾害现场的应急决策。
这些活动需要对物体、动作、空间关系和情境的即时理解,并非单靠语言就能完成。她在机器人研究中逐渐意识到,具身智能的关键在于理解三维世界。
在这样的背景下,“世界模型”成为推动下一阶段AI发展的关键方向。与传统语言模型不同,世界模型不仅能根据文字或图像生成完整的虚拟世界,还能让智能体在其中进行互动、推理。若用于机器人,世界模型将成为其规划路径、理解场景、执行操作的基础。
李飞飞强调,世界模型与空间智能不仅是机器人发展的关键缺失环节,也与人类自身息息相关。人类本身就是具身智能体,AI已在语言层面增强了我们的能力,未来,世界模型同样能够在具身层面增强人类,使我们在空间理解、物体操作和现实世界任务中获得新的力量。
世界模型与空间智能还将深刻影响设计、工程和科学发现。例如,DNA双螺旋结构的发现依赖于人类从一张扁平的2D X射线衍射图像中进行3D空间推理,而这类跨维度的空间抽象正是当前AI难以达到的。世界模型若能突破,将使AI具备这种更深层次的空间推理能力。
03. Marble不是视频生成模型,AI创业竞争激烈程度很“震撼”
李飞飞谈到了World Labs最近发布的产品Marble,这是一个基于前沿世界模型的应用程序,能仅通过一句话或一张图像生成可探索的三维世界。用户可在虚拟环境中自由行走、互动和导航,实现创意、设计、虚拟制作和机器人模拟等多种应用。
她强调,Marble不仅仅是生成二维视频,而是提供具有真实空间结构的世界,方便创作者、游戏开发者、设计师和研究者快速生成沉浸式场景,实际案例包括电影虚拟制作、心理学实验和机器人训练环境合成等。
Marble与视频生成模型有本质区别。李飞飞称,Marble核心关注空间智能,强调对三维和四维世界的理解、互动和推理。同时,平台支持将场景导出为视频或网格数据,用于创作或模拟。
李飞飞透露,成立18个月的World Labs如今拥有约30人的团队,主要由研究人员和工程师组成,也有设计师和产品人员。
李飞飞此前有过不少创业经历,从19岁开干洗店,到领导谷歌云相关研究,再到斯坦福以人为本AI研究所,她对创业的挑战性已有一定心理准备。
然而,投身AI创业后,她仍被AI领域的激烈竞争所“震撼”,从模型和技术之争到顶尖人才的争夺,她意识到必须时刻保持警惕。
04. 造机器人比造自动驾驶汽车还难,“苦涩的教训”并不适用
李飞飞在访谈中提到强化学习先驱Richard Sutton提出的“苦涩的教训”:简单模型配合海量数据往往比复杂模型加少量数据更有效。对她而言,这是“甜蜜”的教训,也是她建设ImageNet的核心信念。不过,她强调,这一教训无法简单套用于机器人领域。
原因一是机器人数据极难获取。与语言模型不同,语言训练数据是天然结构化的词与token,输入与输出形式高度一致,而机器人真正需要的是三维世界中的动作数据。
网络视频虽丰富,但缺乏可直接用于训练行动策略的动作标注。因此,机器人训练不得不依靠遥操作数据或合成数据来补齐。换言之,机器人数据不像语言一样自然“对齐”,使得“苦涩的教训”中的“大数据”假设难以完全成立。
二是机器人是物理系统,而非纯软件模型。与语言模型或视觉模型不同,机器人更像自动驾驶汽车,必须在现实世界中运行,涉及硬件、供应链、应用场景等多种复杂因素。
李飞飞回顾自动驾驶的发展:从2005年斯坦福赢得DARPA挑战赛至今近20年,深度学习虽加速了算法进步,但自动驾驶仍未完全解决。而自动驾驶只是简单的机器人,仅需在二维平面上避免碰撞,相比之下,机器人要在三维空间中操控物体,难度更高。
尽管如此,她认为大数据、世界模型和空间智能将是机器人突破的关键,只是目前仍处于早期探索阶段。
05. 结语:AI时代里,每个人都有属于自己的一席之地
访谈尾声,李飞飞谈到全球对AI是否会取代人类的普遍焦虑。她认为,任何技术的发展都不应以牺牲人的尊严与能动性为代价,这应成为技术开发、部署与治理的核心准则。
无论是年轻艺术家利用AI创作,还是临近退休的农民参与AI监管决策,或是护士在AI辅助下减轻工作负担,AI的真正价值在于增强人类能力、服务人类需求。
对于AI取代人类的问题,李飞飞明确表示:在AI时代里,每个人都有属于自己的一席之地。
来源:
https://www.youtube.com/watch?v=Ctjiatnd6Xk
本文来自微信公众号“智东西”(ID:zhidxcom),作者:陈骏达,编辑:Panken,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



