谷歌迈向通用人工智能：AI世界模型Genie 3亮相

2025-08-07

IT之家8月6日消息，谷歌DeepMind官方于昨日（8月5日）发布博文，宣布推出名为Genie 3的“世界模型”。该模型能让AI系统与逼真的现实世界模拟进行互动，朝着通用人工智能（AGI）迈出了重要一步。

据谷歌介绍，Genie 3可用于训练机器人和自动驾驶车辆，使其在与仓库等环境的真实再现中进行互动。IT之家附上演示视频如下：

谷歌DeepMind人工智能部门的专家认为，世界模型是实现AGI的关键步骤。AGI是一种假想的人工智能水平，在这一水平上，系统并非只能完成如下棋、翻译语言等单一任务，而是能执行大多数任务，与人类能力相当，甚至可能取代某些工作岗位。DeepMind表示，这些模型在开发自主执行任务的AI代理或系统中会发挥重要作用。

和前代模型（如Genie 1/2）以及视频生成模型（如Veo 2、Veo 3对直觉物理学有深刻理解）相比，Genie 3是首个允许实时交互的世界模型。同时，和Genie 2相比，其一致性和真实感也有所提升。

其核心能力包括：

模拟世界的物理特性：Genie 3对物理规律有深入理解，能逼真地模拟水流、光影变化以及复杂的环境互动，比如直升机在悬崖瀑布边小心机动。

模拟自然世界：从冰川湖畔生机勃勃的生态系统，到幻想世界中可爱毛茸茸生物在彩虹桥上跳跃，Genie 3能把想象力转化为可探索的现实。

动画和小说建模：可发挥想象力，创造奇幻场景和富有表现力的动画角色。

探索不同地域与历史场景：该模型能突破地理和时间限制，带领用户探索不同地点和历史时代，无论是身穿翼装飞越雪山，还是置身历史悠久的古城。

突破实时性能的极限：实现高度的可控性和实时交互性。在每一帧的自回归生成过程中，模型必须考虑先前生成的随时间增长的轨迹。例如，若用户一分钟后重新访问某个位置，模型必须引用一分钟前的相关信息。为实现实时交互性，这种计算必须每秒进行多次，以响应新用户输入。

长时程环境一致性：为让人工智能生成的世界更具沉浸感，它们必须在很长一段时间内保持物理上的一致性。不过，自动回归生成环境通常存在比生成整个视频更难的技术问题，因为不准确之处往往会随时间累积。Genie 3环境在几分钟内基本保持一致，视觉记忆可追溯到一分钟前。Genie 3生成的世界更加动态和丰富，因为它们是根据用户的世界描述逐帧创建的。

可提示的世界事件 (Promptable World Events) ：除导航输入外，Genie 3还支持一种更具表现力的基于文本的交互形式，即可提示的世界事件。可提示的世界事件能改变生成的世界，如改变天气条件或引入新的物体和角色，从而增强导航控制的体验。这种能力还增加了反事实或“假设”场景的广度，代理可利用这些场景从经验中学习以处理意外情况。

然而，谷歌表示Genie 3尚未准备好全面公开上市，也未给出具体发布日期，同时指出该模型存在一些局限性。这一声明是在人工智能市场竞争日益激烈的背景下发布的。

谷歌表示，其世界模型还能帮助人类体验各种模拟训练或探索，如滑雪或绕山湖漫步。DeepMind表示，Genie 3能根据文本提示立即创建场景，且模拟环境可快速更改，例如通过文本提示在滑雪坡上引入一群鹿。

谷歌本周一向记者展示了Genie 3创建的滑雪和仓库场景，但尚未公开该模型。据《卫报》报道，这些模拟的质量与谷歌最新的视频创作模型Veo 3相当，不过它们的持续时间是Veo 3的八秒。

尽管AGI被认为可能消除白领工作，因为自主系统能执行从销售代理到律师或会计师等各种角色，但谷歌认为世界模型是开发机器人和自动驾驶车辆的关键技术。例如，一个具有真实物理和人物的仓库再现可帮助训练机器人，因为它能在训练中从模拟中“学习”，以实现目标。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

乒乓球赛事落幕兰州队揽1金3银佳绩

华为Mate 80新技术公布，太惊艳了！

“黄河母亲杯”沿黄九省（区）青少年足球邀请赛盛大开幕

第一期防汛知识答题中奖名单揭晓！

事关吉林人收入！8月底前记得修改这项个税信息