世界上第一款AI游戏诞生了，不需要游戏引擎，视频模型直接走出“我的世界”

2024-11-05

Minecraft不需要游戏引擎，视频底座模型直接进入实时互动，创业公司Decart和Etched打造的Oasis已经做到了这一点。

现在，AI可以自动生成游戏，而无需游戏引擎？

今日，Decart和Etched两家创业公司宣布，他们创造了世界上第一个即时、有趣、互动的世界模型。——Oasis。

Oasis经历了数百万小时的游戏视频练习，开放世界游戏只能通过接收用户的键盘输入即时生成，但不包括任何游戏引擎，只有一个AI底座模型。

游戏允许玩家移动、跳跃、捡东西、打破砖头等。生成的视频内容不仅包括图形渲染，还体现了对物理标准和游戏规则的认知。

Oasis在H100上运行时，可以以360p的分辨率实现每秒20帧的渲染，并实时生成视频交互内容，无需任何延迟。

在此之前，虽然谷歌已经发布了第一个AI游戏引擎GameNGen，但是在发表论文之后并没有开源。

不过，这次两个创业联合开发的Oasis不仅开源代码，而且公开了500M参数版本的模型权重。

https://github.com/etched-ai/open-oasis

https://huggingface.co/Etched/oasis-500m/tree/main

另外，游戏demo已经在官网上发布，有兴趣的玩家可以从项目官网进入网页，体验Minecraft的画风。

项目网址：https://oasis.decart.ai/

虽然全AI的生成是一大亮点，但是在4K的动作中今天的HDR，360p的分辨率看起来相当复古，可能对2024年的人眼不太友好。

幸运的是，如果在Etched制造的Sohu芯片上运行100B 通过参数优化模型，可以实现4K级的实时渲染，并发用户数量也会增加10x以上。

目前，红杉资本也宣布在Oasis背后投资2100万美元的创业公司Decart。

虽然Oasis看起来像一款游戏，但实际上，真正的技术焦点是「视频」和「交互」。

今年发布的OpenAISora可以算是一个视频模型。「第一枪」。伴随着视频模型的扩展，他们正在学习代表整个物理世界和游戏，从而赋予一种全新的产品类型。

目前，超过70%的互联网流量来自视频，从短视频社交媒体到视频聊天，再到流媒体；另一方面，视频的数据密度相当高，AI生成视频所需的FLOPs比文本或图像多10个×。

因此，大多数人工智能推理的负荷来自视频。大型、低延迟、互动视频模型将成为下一波人工智能产品的核心，无论是游戏、教育还是生成内容。

01 如何制造Oasis？

此前谷歌推出的GameNGen本质上仍然是一个由AI驱动的游戏引擎，但是Oasis的底层机制并不是一个游戏引擎，而是一个单一的视频生成模型，相当于一个可以互动、有趣的Sora。

那Oasis究竟是怎么做到的呢？

据博客介绍，R&D团队进行了数百次架构和数据测试，以确定快速生成自回归互动视频的最佳架构。

基于Transformer架构的Oasis模型，基于ViT的变分自动编码器（VAE）以DiT潜在扩散为基础，采用轴向、时间、空间和因果关注机制，克服模型在长序列中的扩散。（divergence）。

OasisViT DiT架构

您可以简单地了解一个分工明确的工厂，每一个零件都有自己的责任。

VAE就像一个车间，负责整理和识别工厂中的原材料(游戏中的各种信息)。它是基于ViT。（Vision Transformer）结构，可对所见游戏画面的相关信息进行加工整理。

基于DiT的主干即工厂核心生产线（Diffusion Transformer）结构，负责游戏内容的加工处理，如动画场景、物体等。

与此同时，利用Decart推理引擎，结合Etched企业的Sohu(Transformer架构的ASIC)芯片，实时监控生成。

这一架构选择保证了Sohu芯片的平稳扩展和快速推理，并以自回归的方式生成帧，可以根据游戏输入进行实时交互。

Sora模型根据用户输入的文本内容直接发布视频，但是Oasis使用Diffusion。 Forcing练习，每次只生成一帧，根据游戏输入在token级别调整每一帧，所以可操作性非常高。

之所以可以称之为「世界模型」，因为Oasis已经能够理解复杂的游戏机制，例如理解物体和建筑物，照明的物理规律等等。

理解照明模型的物理原理。

放置正方体砖

然而，在生成游戏画面时，另一个问题是如何保证时间稳定性。因为在自回归模型中，如果一张图片出了问题，后面可能会越来越乱，就像多米诺骨牌一样。

要解决这一问题，需要长时间的文本生成创新，Oasis的方案是安排动态噪声。（dynamic noising）。

Decart团队还表示，今后将研究一些远处物体的模糊性和不确定物体的时间一致性，逐步提升Oasis的游戏体验。

02 两个初创企业，强强联合

新时代的生成式交互体验来了吗？这两家创业公司的起源是什么？

根据公开报道，Oasis模型是由Decart和Etched两家创业公司联合推出的。

Decart成立于2023年9月，一直致力于提高AI模型的效率，降低使用成本，提供更快、更可靠的培训和即时推理，成立三个月后，与一家GPU云服务提供商达成数百万美元的交易。

MosheeDecart创始人 Shalev和Dean Leitersdorf

如今，红杉资本投资了2100万美元，合作伙伴Shaun Maguire甚至大力称赞Decart团队，认为他们是「AI工程师超级精英」、「最有才华的团队之一的合作技术」，正把生成式的感觉推向完美。

现在推出的Oasis只是一个即时推理的热身试验，在接下来的几个月里，他们也将发布更具颠覆性的结果。

另外一家创业Etched是一家来自美国的人工智能芯片公司，成立于2022年，三位核心创始人均为哈佛辍学生。

在Sohu-世界上第一个基于Transformer结构的ASIC芯片上，他们最耀眼的成就就是推出了Sohu-，专门为LLM推理加速打造，不仅比Groq快，而且还可以推出英伟达最新的B200。

使用Llama 以70B模型推理性能为例，一张Sohu≈20张H100≈10张B200。

在令人惊叹的性能背后，是Etched的一场豪赌般的衡量。

构建一个针对特定算法的AI芯片，直接将模型架构烧录到芯片硬件结构中，这意味着其他模型无法运行，比如CNN。、RNN或LSTM，但是对于Transformer来说，可以获得迄今为止最快的芯片。

创始团队在2022年大胆推测——Transformer将占领世界，因此花了两年时间研发，获得了今天的Sohu。

GavinininEtched创始人之一 Uberti说，「我们正在下注人工智能领域最大的筹码——一个只能运行Transformer模型的芯片，但它的启动速度比GPU快几个数量级。也许注意力真的是你需要的。...」

可以高效推理的AI芯片，对于极耗计算能力的视频生成来说，可以算是类似于Scaling。 Law的福音。

虽然文生视频模型已达到良好的生成效果，但是速度特别慢，成本也很高。

视频中的每一帧都包含数百甚至数千个图标，需要并行计算几次才能完全消除噪音。最好的模型平均值每秒不到一帧，每个用户每分钟的成本可能高达1美元。

这一低效率、高成本的推理，不得不说是视频生成模型在实际应用中的一大障碍，而这正是Sohu芯片所期望解决的问题。

今年6月，Etched宣布筹集了1.2亿美元用于扩大生产，并与台积电合作，直接威胁挑战市值3万亿元的英伟达，拥有35名精英团队。

参考资料：

https://x.com/shaunmmaguire/status/1852092981022794128

https://www.decart.ai/articles/oasis-interactive-ai-video-game-model

https://www.etched.com/blog-posts/oasis

本文来自微信微信官方账号“新智元”，作者：新智元，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

行知读书会｜音乐剧照亮了城市文化的夜空

北京师范大学学生与北京交响乐团同场《俄罗斯之夜》上演了“京”彩文化。

北京师范大学的学生和北京交响乐团& 《俄罗斯之夜》上演了“京”彩文化。

2024年“AI+教育”变革加速智能化融合达新高度

以喜剧片呈现现实什么是正确的开启方式？

项目推荐

迪瓜租机

爱亲母婴连锁品牌

水灵珑