Google虚拟世界生成器上线，将和马斯克一起玩AI游戏？

2024-12-07

下列文章来源于财联社AI。 daily ，作者宋子乔

财联社AI daily.

财联社及科创板日报旗下产品——未来已经到来，AI前沿，专属，深度，专业！

上面有“AI教母”李飞飞，后面有谷歌DeepMind，大模型的热度依然存在，大世界模型再次成为焦点。

继李飞飞旗下公司World公司之后。当地时间12月4日，谷歌DeepMind发布了一个大型基础世界模型Genienienie，Labs展示了一张生成3D世界的图片。可以通过单张图片或文字描述生成3D场景。

相关论文

仅间隔一天，两个AI工具的功能非常相似，核心在于：

1、根据谷歌的说法，用户只需提供一张图片(Imagenen)即可生成交互3D场景。 3生成)和文字描述，Genie 2可以生成一个可交互的3D场景，并以720p的清晰度呈现出来。用户可以通过鼠标和键盘自由探索近1分钟，大部分可以稳定运行10到20秒。

2、空间记忆能力：Genie 2产生的内容可以使用户在虚拟环境中移动，即使某些区域暂时不在视野范围内，系统也能保持这些区域的一致性。World Labs也能做到这一点，即使你把目光移开，然后回来，已经产生的3D场景也不会改变。

3、扩图能力：Genie 2能够在此过程中立即创造出符合逻辑的新场景内容，并能在近一分钟内保持整个世界的一致性。这就是AI工具可以预测3D场景的能力，World Labs还可以让AI工具仅凭部分图片就可以“扩展图片”，想象整个3D场景。

下面是谷歌给出的demo案例：

2D图生3D场景(可以从多个角度)

可以互动(包括与NPC互动的产生)

空间记忆能力

然而，似乎李飞飞模型才能真正理解物理世界。普林斯顿AI创新中心的创始人、主任、终身教授王梦迪表示：“李飞飞的World Genie2Labs和谷歌似乎都是从一张图片中生成一个可以互动的三维场景，但是却有着本质的不同。Genie2还是video？ diffusion(视频扩散)，每一帧的形成都是pixel prediction(像素预测)，并且通过guidance(引导)的额外用户输入来影响下一帧的概率分布。而且飞飞的World Labs是对世界物理本质的进一步探索:从图片来看，估计照片中不同风景的深度和相对关系产生了更多物理世界的3D环境建模，不仅仅是互动视频。

另外，一个微小的区别是，World Labs专注于影视制作的应用领域，而谷歌则专注于游戏制作。Genie 2发布后，DeepMind CEO Demis Hassabis直接邀请马斯克一起玩AI游戏，马斯克回复：Cool。此前，马斯克宣布，xAI将开设AI网游工作室。

对动画场景的重视并不奇怪，DeepMind也承认了这一点：“游戏一直是我们研究的重点，从最初与Atari游戏的合作，到AlphaGo和AlphaStar等突破性成果，再到与游戏开发者合作研究通用智能体。”

谷歌还拥有Youtube中超过1亿小时的游戏视频数据，作为Youtube的总公司。

值得注意的是，Genie 以2为代表的大世界模型可以快速建立无限多样的3D环境，可以用来训练和评估具体智能体。这意味着它可以为具体智能研究提供丰富的虚拟训练数据。

Jackk谷歌研究人员 Parker-Holder给出了两个案例，其中一个是红门和蓝门，可以通过将不同的语言指令输入到模型中来生成不同的3D场景，并走向红门或蓝门。

三门场景比较复杂，Genie 2仍然很好地理解了指令，并生成了研究人员想要的3D动画。

上述研究人员表示，相信Genie 2能解锁下一波具体智能体的能力。

继续滚动阅读下一个轻触阅读原文。

财联社向上滑动，看下一个

标题：“谷歌虚拟世界生成器上线，将和马斯克一起玩AI游戏？”

阅读原文

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

利用苹果公司的慈善计划骗取 15 一万美元，六名前雇工被捕

小米家App暂时不支持华为HarmonyOSy。 NEXT：正在适配中

真的叫卢俊自己种的文旦限量生产，错过再等一年。

大雪来了！

运输成功！国内单机容量最大，来自闵行。→

项目推荐

迪瓜租机

水灵珑

康老板 · 氧疗堂