世界上第一款AI游戏诞生了,不需要游戏引擎,视频模型直接走出“我的世界”
Minecraft不需要游戏引擎,视频底座模型直接进入实时互动,创业公司Decart和Etched打造的Oasis已经做到了这一点。
现在,AI可以自动生成游戏,而无需游戏引擎?
今日,Decart和Etched两家创业公司宣布,他们创造了世界上第一个即时、有趣、互动的世界模型。——Oasis。

Oasis经历了数百万小时的游戏视频练习,开放世界游戏只能通过接收用户的键盘输入即时生成,但不包括任何游戏引擎,只有一个AI底座模型。
游戏允许玩家移动、跳跃、捡东西、打破砖头等。生成的视频内容不仅包括图形渲染,还体现了对物理标准和游戏规则的认知。

Oasis在H100上运行时,可以以360p的分辨率实现每秒20帧的渲染,并实时生成视频交互内容,无需任何延迟。
在此之前,虽然谷歌已经发布了第一个AI游戏引擎GameNGen,但是在发表论文之后并没有开源。

不过,这次两个创业联合开发的Oasis不仅开源代码,而且公开了500M参数版本的模型权重。

https://github.com/etched-ai/open-oasis

https://huggingface.co/Etched/oasis-500m/tree/main
另外,游戏demo已经在官网上发布,有兴趣的玩家可以从项目官网进入网页,体验Minecraft的画风。

项目网址:https://oasis.decart.ai/
虽然全AI的生成是一大亮点,但是在4K的动作中 今天的HDR,360p的分辨率看起来相当复古,可能对2024年的人眼不太友好。
幸运的是,如果在Etched制造的Sohu芯片上运行100B 通过参数优化模型,可以实现4K级的实时渲染,并发用户数量也会增加10x以上。
目前,红杉资本也宣布在Oasis背后投资2100万美元的创业公司Decart。

虽然Oasis看起来像一款游戏,但实际上,真正的技术焦点是「视频」和「交互」。
今年发布的OpenAISora可以算是一个视频模型。「第一枪」。伴随着视频模型的扩展,他们正在学习代表整个物理世界和游戏,从而赋予一种全新的产品类型。
目前,超过70%的互联网流量来自视频,从短视频社交媒体到视频聊天,再到流媒体;另一方面,视频的数据密度相当高,AI生成视频所需的FLOPs比文本或图像多10个×。
因此,大多数人工智能推理的负荷来自视频。大型、低延迟、互动视频模型将成为下一波人工智能产品的核心,无论是游戏、教育还是生成内容。
01 如何制造Oasis?
此前谷歌推出的GameNGen本质上仍然是一个由AI驱动的游戏引擎,但是Oasis的底层机制并不是一个游戏引擎,而是一个单一的视频生成模型,相当于一个可以互动、有趣的Sora。
那Oasis究竟是怎么做到的呢?
据博客介绍,R&D团队进行了数百次架构和数据测试,以确定快速生成自回归互动视频的最佳架构。
基于Transformer架构的Oasis模型,基于ViT的变分自动编码器(VAE)以DiT潜在扩散为基础,采用轴向、时间、空间和因果关注机制,克服模型在长序列中的扩散。(divergence)。

OasisViT DiT架构
您可以简单地了解一个分工明确的工厂,每一个零件都有自己的责任。
VAE就像一个车间,负责整理和识别工厂中的原材料(游戏中的各种信息)。它是基于ViT。(Vision Transformer)结构,可对所见游戏画面的相关信息进行加工整理。
基于DiT的主干即工厂核心生产线(Diffusion Transformer)结构,负责游戏内容的加工处理,如动画场景、物体等。
与此同时,利用Decart推理引擎,结合Etched企业的Sohu(Transformer架构的ASIC)芯片,实时监控生成。
这一架构选择保证了Sohu芯片的平稳扩展和快速推理,并以自回归的方式生成帧,可以根据游戏输入进行实时交互。
Sora模型根据用户输入的文本内容直接发布视频,但是Oasis使用Diffusion。 Forcing练习,每次只生成一帧,根据游戏输入在token级别调整每一帧,所以可操作性非常高。
之所以可以称之为「世界模型」,因为Oasis已经能够理解复杂的游戏机制,例如理解物体和建筑物,照明的物理规律等等。

理解照明模型的物理原理。

放置正方体砖
然而,在生成游戏画面时,另一个问题是如何保证时间稳定性。因为在自回归模型中,如果一张图片出了问题,后面可能会越来越乱,就像多米诺骨牌一样。
要解决这一问题,需要长时间的文本生成创新,Oasis的方案是安排动态噪声。(dynamic noising)。

Decart团队还表示,今后将研究一些远处物体的模糊性和不确定物体的时间一致性,逐步提升Oasis的游戏体验。
02 两个初创企业,强强联合
新时代的生成式交互体验来了吗?这两家创业公司的起源是什么?
根据公开报道,Oasis模型是由Decart和Etched两家创业公司联合推出的。
Decart成立于2023年9月,一直致力于提高AI模型的效率,降低使用成本,提供更快、更可靠的培训和即时推理,成立三个月后,与一家GPU云服务提供商达成数百万美元的交易。

MosheeDecart创始人 Shalev和Dean Leitersdorf
如今,红杉资本投资了2100万美元,合作伙伴Shaun Maguire甚至大力称赞Decart团队,认为他们是「AI工程师超级精英」、「最有才华的团队之一的合作技术」,正把生成式的感觉推向完美。

现在推出的Oasis只是一个即时推理的热身试验,在接下来的几个月里,他们也将发布更具颠覆性的结果。
另外一家创业Etched是一家来自美国的人工智能芯片公司,成立于2022年,三位核心创始人均为哈佛辍学生。
在Sohu-世界上第一个基于Transformer结构的ASIC芯片上,他们最耀眼的成就就是推出了Sohu-,专门为LLM推理加速打造,不仅比Groq快,而且还可以推出英伟达最新的B200。

使用Llama 以70B模型推理性能为例,一张Sohu≈20张H100≈10张B200。

在令人惊叹的性能背后,是Etched的一场豪赌般的衡量。
构建一个针对特定算法的AI芯片,直接将模型架构烧录到芯片硬件结构中,这意味着其他模型无法运行,比如CNN。、RNN或LSTM,但是对于Transformer来说,可以获得迄今为止最快的芯片。
创始团队在2022年大胆推测——Transformer将占领世界,因此花了两年时间研发,获得了今天的Sohu。
GavinininEtched创始人之一 Uberti说,「我们正在下注人工智能领域最大的筹码——一个只能运行Transformer模型的芯片,但它的启动速度比GPU快几个数量级。也许注意力真的是你需要的。...」

可以高效推理的AI芯片,对于极耗计算能力的视频生成来说,可以算是类似于Scaling。 Law的福音。
虽然文生视频模型已达到良好的生成效果,但是速度特别慢,成本也很高。
视频中的每一帧都包含数百甚至数千个图标,需要并行计算几次才能完全消除噪音。最好的模型平均值每秒不到一帧,每个用户每分钟的成本可能高达1美元。
这一低效率、高成本的推理,不得不说是视频生成模型在实际应用中的一大障碍,而这正是Sohu芯片所期望解决的问题。
今年6月,Etched宣布筹集了1.2亿美元用于扩大生产,并与台积电合作,直接威胁挑战市值3万亿元的英伟达,拥有35名精英团队。
参考资料:
https://x.com/shaunmmaguire/status/1852092981022794128
https://www.decart.ai/articles/oasis-interactive-ai-video-game-model
https://www.etched.com/blog-posts/oasis
本文来自微信微信官方账号“新智元”,作者:新智元,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




