如今,随着大语言模型的普及,我们为什么要拥抱世界模型?

04-09 11:09

图灵奖得主杨立昆认为,目前AI界持续青睐的大语言模式并非十全十美,它隐藏着四个致命的弱点:一是了解物理世界,二是具有长期记忆,三是具有推理能力,四是具有复杂的规划能力。

 

而且能克服第一个“致命弱点”的技术,叫做世界模型。

 

 

这个听起来可能很抽象,但是你一定知道谷歌的3D游戏,特斯拉的自动驾驶。

 

世界模型代表着机器可以像人一样识别物理空间,理解物理规律,根据经验做出推理决策。

 

与大语言模型不同,世界模型不再遵循从海量文本语料产生概率的思路,而是在深入分析大规模现实世界视频后推断因果。

 

就像人类世界的婴儿一样,在交互学习中建立对世界的认识。

 

世界模型从零到一,源于人类的心智。

 

想象一个刚出生的宝宝,她的眼睛还没有完全聚焦,但她可以通过触摸、温度和声音的碎片来拼奏世界的轮廓。人脑几百万年就进化出了这种能力——将感官信息转化为对物理规律的认知。

 

而且这正是当今人工智能所缺乏的,世界模型正在努力发展——从数据中重构对重力、时间等知识的理解。

 

世界模型的概念最早可以追溯到认知科学和控制理论,从1980年代到1990年代。当时的研究人员受到心理学的影响,提出AI系统需要构建内部模拟环境,然后进行预测和决策,即AI的环境建模能力。

 

这是一个重要因素:环境。

 

从生物学的角度来看,无论是微生物、动物还是人类,行为都遵循最基本的规则:刺激-反应方法,即生物反应是对环境刺激的直接反应。

 

 

随着生物几千亿年的漫长进化,动物通过视觉、听觉、嗅觉等感官感知外界,发展出兴奋、恐惧等简单情绪。人类进一步发展自我意识,人类意识和动物感觉最大的区别是能否独立规划,有目的地做出决策和行动。

 

与AI的发展过程相比,我们不难发现生物进化过程,事实上,AI的终极形态AGI就是要发展自主感知现实、自我规划、有目的决策的能力。

 

在心理学家对人类和动物认知的理解和对世界的决策分析中,世界模型的雏形萌芽。这一理论被称为心理模型,1990年Davidi Rumelhart提出,强调智能体需要对环境形成抽象表征。

 

以我们自己为例,人脑对周围世界有一个内在的认知框架,根据自己的经验做出决定,比如看到乌云就会想到雨。例如,我们不记得每一片叶子的形状,但是我们可以瞬间判断树枝是否能承受重量。类似地,世界模型就是让机器建立起对周围环境和世界的理解和预测能力,比如看到火就会想到烫伤。这一抽象能力,正是现阶段学者希望机器具备的禀赋。

 

然而,现阶段的世界模型研究仍然处于理论构思阶段,尽管有较明确的定义和目标,但仍然没有具体的技术路径。

 

 

世界模型研究始于2000s到2010s的计算建模阶段。随着学习和深度学习的加强和深入发展,学者们开始用神经网络建立一个可训练的世界模型。

 

通过奖惩制度加强学习,使其在与环境互动的过程中不断学习策略,类似于“训狗”。深度学习使其从海量数据中自动学习规则,通过分层特征提取,类似于“炼金术”。

 

2018年,DeepMind 《World Models》(Ha & Schmidhuber)论文首次用“VAE RNN 三级结构,控制器,构建可预测环境的神经网络模型,成为现代世界模型的里程碑。

 

这个过程类似于“梦想”——首先,自动编码器VAE将真实场景压缩成数据,然后利用RNN循环神经网络演绎后可能的情节,然后用简化控制器指导行动。这意味着世界模型首次具备了颅内演绎的能力,在行动前像人类一样预测后果,大大降低了试错成本。

 

2022年后,世界模型进入大模型时代。借助Transformer的序列建模能力和多模态技术,应用范围从单模态扩展到跨模态模拟,世界模型的推演也从2D扩展到3D(例如OpenAI的GATO)。、MindDeepGenie)。

 

 

最近,Meta的VC-1、GooglePaLM-E进一步将世界模型的概念带入公众视野,将世界模型与大语言模型相结合,实现更加通用的环境推理,成为一条技术发展路线。

 

GooglePaLM-E(5620亿参数)模型成功将语言模型与视觉、传感器数据等物理世界信息相结合,机器人可以理解复杂的指令(如“捡起掉落的锤子”),适应新环境。Meta 开源多模态框架(如MultiPLY)系列Llama系列进一步推动了对物理环境的3D感知研究。

 

从上面,从概念演绎到落地实践,世界模型逐渐在发展中摸索,逐渐走出一条从混沌到清明的道路。

 

由虚拟进入现实,世界模型大有作为。

 

随着Transformer结构的进化和多模态数据的爆发,世界模型走出训练场,走进游戏场,然后走向现实世界——谷歌和腾讯利用它们生成逼真的动画场景。特斯拉利用神经网络预测车辆轨迹,DeepMind通过建模预测全球天气。

 

通过这种方式,在实验室里蹒跚学步的世界模式开始了他探索现实物理规律的道路。

 

正如人类幼年通过游戏体验规则完成社会化一样,世界模型的第一关也是游戏。

 

初始模型应用依赖于Atari游戏等规则明确的虚拟环境和边界明确的离散空间。(DQN)、星际争霸(AlphaStar),选择表格模型(如Dyna),后期结合CNN/RNN处理图像输入。

 

 

Genieenieenie进化到3D后,谷歌DeepMind 2可以通过单张图片生成一个可以互动的无限3D世界,时间达到1分钟,用户可以自由探索动态环境(如地形变化、物体互动)。由腾讯、香港科技大学、中国科技大学联合推出的GameGen-O模型,可以一键生成西部牛仔、法师、驯兽师等游戏角色,还可以生成海啸、龙卷风、激光等场景。具有更高的保真性和更复杂的物理效果。

 

经过大量的训练,世界模型已经从游戏转变为工业场景。

 

游戏引擎的核心能力是构建一个高保真、可互动的3D虚拟环境。该能力直接转移到工业场景中,用于模拟工业场景中各种可能出现故障的复杂场景。

 

 

机器人波士顿动力在虚拟环境中预演机器人动作(如跌倒恢复),然后转移到实体机器;2023年特斯拉提出的世界模型直接融合了游戏引擎的模拟模拟,利用生成数据训练自动驾驶系统,减少对真实路测数据的依赖;蔚来的智能世界模型可以在很短的时间内演绎上百种可能的场景,并制定好计划和决策。

 

最近,世界模型也进入了基础研究领域。

 

DeepMindGraphCast通过世界模型处理数百万级网格气候变量,预测天气能力比传统数值模拟快1000倍,能耗减少1000倍。通过图形神经网络架构,可以从历史再处理数据中直接学习天气系统的复杂动力学,准确高效地预测全球天气。

 

 

世界模型的本质是通过大量的多模态数据来理解物理世界的规律,从游戏般的虚拟场景到自动驾驶等现实场景。未来,“世界模型 “大语言模型”将成为AGI的关键结构,使AI不仅可以聊天,而且可以真正理解并做出改变现实世界的决定。

 

但是,为什么我们需要世界模型呢?当语言模型风靡全球时,是什么让它显得不可替代?

 

由概率到因果, 为什么我们需要世界模型?

 

要使AI真正从模仿表征到感知本质,克服各种恐怖谷效应的关键在于:让它真正了解这个世界,了解现实空间和物理规律,从而理解它为什么要这样做,而不是根据海量数据的相关概率机械地推断下一个token是什么。

 

只有世界模型才能做到这一点,这是基于大规模文本语料的大语言模型和不断试错提升寻找最佳路径的强化学习。

 

传统的AI是数据驱动的被动反应系统,世界模型可以通过建立内部虚拟环境来理解物理、冲击等实际规律,通过想象预演行动的后果,在游戏、机器人等领域共享底层推理率。

 

第一,通过底层建模和多模态整合,构建与人类相同的心理模型。在外部,世界模型不仅模拟物理规律,还试图理解社会规则和生物行为,从而在复杂的场景中扬长避短。在内部,世界模型根据感知、预测、规划和学习的协同,形成类似人类心灵的时空思维能力。

 

 

第二是因果预测和反事实推理能力。基于当前的状态和行动,世界模型可以预测未来的进化结果。它有一个类似于人类的常识库,可以填补缺失的信息,并进行反事实推理。(what if),即使你没有直接观察某个事件,你也可以推断“如果你采取不同的行动会发生什么”。这种能力在数据稀缺的情况下仍然可以做出有效的决策,减少对海量标注数据的依赖,在自动驾驶领域得到广泛应用。

 

最终,世界模型通过自我监督和学习构建了一个通用的世界表征,获得了跨任务和场景的泛化能力,而传统模型通常需要微调特定领域的具体任务。

 

但是,为什么这些能力,火极一时的大语言模型却无法实现呢?

 

 

要弄清楚为什么世界模型的预测能力与大语言模型的推断能力不同,我们应该弄清楚一个概念:相关性≠因果关系。前一种概率相关,后一种是因果推理。

 

大语言模型(如GPT系列)侧重于大数据驱动的自回归学习,通过大量的文本数据训练模型生成文本,其本质是预测概率,而世界模型学校认为自回归的Transformer无法通向AGI。AI需要有真正的常识理解能力,只能通过对大量照片、音视频等多模态数据的深入分析来获得世界的内在表征。

 

在模型结构方面,大语言模型主要依靠Transformer结构,文本序列由自我关注机制处理。世界模型包括多个模块,如配置器、感知、世界模型、角色等。,可以估计世界状况,预测变化,找到最佳解决方案。

 

一般来说,大语言模型训练出来的文字天才是纸上谈兵的将军,他们可能对常识一无所知。世界模型更像是在建模环境中经历过多次战斗的将军,他们可以根据自己的感受和经验来预测对手是如何被招募的。

 

 

尽管世界模型前景广阔,但目前仍面临一些瓶颈。

 

在计算率方面,训练世界模型所需的计算资源远远超过大型语言模型,存在“幻觉”(错误预测)问题;在泛化能力方面,如何平衡模型的复杂性和跨场景适应性仍需突破;在训练集中,多模式的数据规模较小,需要深度标注,质量控制是最重要的。

 

假设像GPT这样的大语言模型已经到了能言善辩的青春期,世界模型实际上还处在牙牙学语的幼年时期。

 

一般来说,世界模型是除了深度学习之外的另一条探索之路。如果未来深度学习陷入瓶颈,世界模型可能是一种替代方案。但是现阶段世界模型还处于探索期,我们还是要把重点放在大语言模型和深度学习的技术线上。

 

为了使AI的发展有更多的道路可走,多发力,协同合作。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com