谷歌迈向通用人工智能:AI世界模型Genie 3亮相

08-07 06:30

IT之家8月6日消息,谷歌DeepMind官方于昨日(8月5日)发布博文,宣布推出名为Genie 3的“世界模型”。该模型能让AI系统与逼真的现实世界模拟进行互动,朝着通用人工智能(AGI)迈出了重要一步。


据谷歌介绍,Genie 3可用于训练机器人和自动驾驶车辆,使其在与仓库等环境的真实再现中进行互动。IT之家附上演示视频如下:


谷歌DeepMind人工智能部门的专家认为,世界模型是实现AGI的关键步骤。AGI是一种假想的人工智能水平,在这一水平上,系统并非只能完成如下棋、翻译语言等单一任务,而是能执行大多数任务,与人类能力相当,甚至可能取代某些工作岗位。DeepMind表示,这些模型在开发自主执行任务的AI代理或系统中会发挥重要作用。


和前代模型(如Genie 1/2)以及视频生成模型(如Veo 2、Veo 3对直觉物理学有深刻理解)相比,Genie 3是首个允许实时交互的世界模型。同时,和Genie 2相比,其一致性和真实感也有所提升。


其核心能力包括:


模拟世界的物理特性:Genie 3对物理规律有深入理解,能逼真地模拟水流、光影变化以及复杂的环境互动,比如直升机在悬崖瀑布边小心机动。


模拟自然世界:从冰川湖畔生机勃勃的生态系统,到幻想世界中可爱毛茸茸生物在彩虹桥上跳跃,Genie 3能把想象力转化为可探索的现实。


动画和小说建模:可发挥想象力,创造奇幻场景和富有表现力的动画角色。


探索不同地域与历史场景:该模型能突破地理和时间限制,带领用户探索不同地点和历史时代,无论是身穿翼装飞越雪山,还是置身历史悠久的古城。


突破实时性能的极限:实现高度的可控性和实时交互性。在每一帧的自回归生成过程中,模型必须考虑先前生成的随时间增长的轨迹。例如,若用户一分钟后重新访问某个位置,模型必须引用一分钟前的相关信息。为实现实时交互性,这种计算必须每秒进行多次,以响应新用户输入。


长时程环境一致性:为让人工智能生成的世界更具沉浸感,它们必须在很长一段时间内保持物理上的一致性。不过,自动回归生成环境通常存在比生成整个视频更难的技术问题,因为不准确之处往往会随时间累积。Genie 3环境在几分钟内基本保持一致,视觉记忆可追溯到一分钟前。Genie 3生成的世界更加动态和丰富,因为它们是根据用户的世界描述逐帧创建的。


可提示的世界事件 (Promptable World Events) :除导航输入外,Genie 3还支持一种更具表现力的基于文本的交互形式,即可提示的世界事件。可提示的世界事件能改变生成的世界,如改变天气条件或引入新的物体和角色,从而增强导航控制的体验。这种能力还增加了反事实或“假设”场景的广度,代理可利用这些场景从经验中学习以处理意外情况。


然而,谷歌表示Genie 3尚未准备好全面公开上市,也未给出具体发布日期,同时指出该模型存在一些局限性。这一声明是在人工智能市场竞争日益激烈的背景下发布的。


谷歌表示,其世界模型还能帮助人类体验各种模拟训练或探索,如滑雪或绕山湖漫步。DeepMind表示,Genie 3能根据文本提示立即创建场景,且模拟环境可快速更改,例如通过文本提示在滑雪坡上引入一群鹿。


谷歌本周一向记者展示了Genie 3创建的滑雪和仓库场景,但尚未公开该模型。据《卫报》报道,这些模拟的质量与谷歌最新的视频创作模型Veo 3相当,不过它们的持续时间是Veo 3的八秒。


尽管AGI被认为可能消除白领工作,因为自主系统能执行从销售代理到律师或会计师等各种角色,但谷歌认为世界模型是开发机器人和自动驾驶车辆的关键技术。例如,一个具有真实物理和人物的仓库再现可帮助训练机器人,因为它能在训练中从模拟中“学习”,以实现目标。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com