Google虚拟世界生成器上线,将和马斯克一起玩AI游戏?
下列文章来源于财联社AI。 daily ,作者宋子乔
财联社AI daily.
财联社及科创板日报旗下产品——未来已经到来,AI前沿,专属,深度,专业!
上面有“AI教母”李飞飞,后面有谷歌DeepMind,大模型的热度依然存在,大世界模型再次成为焦点。
继李飞飞旗下公司World公司之后。 当地时间12月4日,谷歌DeepMind发布了一个大型基础世界模型Genienienie,Labs展示了一张生成3D世界的图片。 可以通过单张图片或文字描述生成3D场景。
相关论文
仅间隔一天,两个AI工具的功能非常相似,核心在于:
1、根据谷歌的说法,用户只需提供一张图片(Imagenen)即可生成交互3D场景。 3生成)和文字描述,Genie 2可以生成一个可交互的3D场景,并以720p的清晰度呈现出来。用户可以通过鼠标和键盘自由探索近1分钟,大部分可以稳定运行10到20秒。
2、空间记忆能力:Genie 2产生的内容可以使用户在虚拟环境中移动,即使某些区域暂时不在视野范围内,系统也能保持这些区域的一致性。World Labs也能做到这一点,即使你把目光移开,然后回来,已经产生的3D场景也不会改变。
3、扩图能力:Genie 2能够在此过程中立即创造出符合逻辑的新场景内容,并能在近一分钟内保持整个世界的一致性。这就是AI工具可以预测3D场景的能力,World Labs还可以让AI工具仅凭部分图片就可以“扩展图片”,想象整个3D场景。
下面是谷歌给出的demo案例:
2D图生3D场景(可以从多个角度)
可以互动(包括与NPC互动的产生)
空间记忆能力
然而,似乎李飞飞模型才能真正理解物理世界。普林斯顿AI创新中心的创始人、主任、终身教授王梦迪表示:“李飞飞的World Genie2Labs和谷歌似乎都是从一张图片中生成一个可以互动的三维场景,但是却有着本质的不同。Genie2还是video? diffusion(视频扩散),每一帧的形成都是pixel prediction(像素预测),并且通过guidance(引导)的额外用户输入来影响下一帧的概率分布。而且飞飞的World Labs是对世界物理本质的进一步探索:从图片来看,估计照片中不同风景的深度和相对关系产生了更多物理世界的3D环境建模,不仅仅是互动视频。
另外,一个微小的区别是,World Labs专注于影视制作的应用领域,而谷歌则专注于游戏制作。Genie 2发布后,DeepMind CEO Demis Hassabis直接邀请马斯克一起玩AI游戏,马斯克回复:Cool。此前,马斯克宣布,xAI将开设AI网游工作室。
对动画场景的重视并不奇怪,DeepMind也承认了这一点:“游戏一直是我们研究的重点,从最初与Atari游戏的合作,到AlphaGo和AlphaStar等突破性成果,再到与游戏开发者合作研究通用智能体。”
谷歌还拥有Youtube中超过1亿小时的游戏视频数据,作为Youtube的总公司。
值得注意的是,Genie 以2为代表的大世界模型可以快速建立无限多样的3D环境,可以用来训练和评估具体智能体。这意味着它可以为具体智能研究提供丰富的虚拟训练数据。
Jackk谷歌研究人员 Parker-Holder给出了两个案例,其中一个是红门和蓝门,可以通过将不同的语言指令输入到模型中来生成不同的3D场景,并走向红门或蓝门。
三门场景比较复杂,Genie 2仍然很好地理解了指令,并生成了研究人员想要的3D动画。
上述研究人员表示,相信Genie 2能解锁下一波具体智能体的能力。
继续滚动阅读下一个轻触阅读原文。
财联社向上滑动,看下一个
标题:“谷歌虚拟世界生成器上线,将和马斯克一起玩AI游戏?”
阅读原文
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




