世界上第一款AI游戏诞生了,不需要游戏引擎,视频模型直接走出“我的世界”

2024-11-05

Minecraft不需要游戏引擎,视频底座模型直接进入实时互动,创业公司Decart和Etched打造的Oasis已经做到了这一点。


现在,AI可以自动生成游戏,而无需游戏引擎?


今日,Decart和Etched两家创业公司宣布,他们创造了世界上第一个即时、有趣、互动的世界模型。——Oasis。



Oasis经历了数百万小时的游戏视频练习,开放世界游戏只能通过接收用户的键盘输入即时生成,但不包括任何游戏引擎,只有一个AI底座模型。


游戏允许玩家移动、跳跃、捡东西、打破砖头等。生成的视频内容不仅包括图形渲染,还体现了对物理标准和游戏规则的认知。



Oasis在H100上运行时,可以以360p的分辨率实现每秒20帧的渲染,并实时生成视频交互内容,无需任何延迟。


在此之前,虽然谷歌已经发布了第一个AI游戏引擎GameNGen,但是在发表论文之后并没有开源。



不过,这次两个创业联合开发的Oasis不仅开源代码,而且公开了500M参数版本的模型权重。



https://github.com/etched-ai/open-oasis



https://huggingface.co/Etched/oasis-500m/tree/main


另外,游戏demo已经在官网上发布,有兴趣的玩家可以从项目官网进入网页,体验Minecraft的画风。



项目网址:https://oasis.decart.ai/


虽然全AI的生成是一大亮点,但是在4K的动作中 今天的HDR,360p的分辨率看起来相当复古,可能对2024年的人眼不太友好。


幸运的是,如果在Etched制造的Sohu芯片上运行100B 通过参数优化模型,可以实现4K级的实时渲染,并发用户数量也会增加10x以上。


目前,红杉资本也宣布在Oasis背后投资2100万美元的创业公司Decart。



虽然Oasis看起来像一款游戏,但实际上,真正的技术焦点是「视频」和「交互」。


今年发布的OpenAISora可以算是一个视频模型。「第一枪」。伴随着视频模型的扩展,他们正在学习代表整个物理世界和游戏,从而赋予一种全新的产品类型。


目前,超过70%的互联网流量来自视频,从短视频社交媒体到视频聊天,再到流媒体;另一方面,视频的数据密度相当高,AI生成视频所需的FLOPs比文本或图像多10个×。


因此,大多数人工智能推理的负荷来自视频。大型、低延迟、互动视频模型将成为下一波人工智能产品的核心,无论是游戏、教育还是生成内容。


01 如何制造Oasis?


此前谷歌推出的GameNGen本质上仍然是一个由AI驱动的游戏引擎,但是Oasis的底层机制并不是一个游戏引擎,而是一个单一的视频生成模型,相当于一个可以互动、有趣的Sora。


那Oasis究竟是怎么做到的呢?


据博客介绍,R&D团队进行了数百次架构和数据测试,以确定快速生成自回归互动视频的最佳架构。


基于Transformer架构的Oasis模型,基于ViT的变分自动编码器(VAE)以DiT潜在扩散为基础,采用轴向、时间、空间和因果关注机制,克服模型在长序列中的扩散。(divergence)。



OasisViT DiT架构


您可以简单地了解一个分工明确的工厂,每一个零件都有自己的责任。


VAE就像一个车间,负责整理和识别工厂中的原材料(游戏中的各种信息)。它是基于ViT。(Vision Transformer)结构,可对所见游戏画面的相关信息进行加工整理。


基于DiT的主干即工厂核心生产线(Diffusion Transformer)结构,负责游戏内容的加工处理,如动画场景、物体等。


与此同时,利用Decart推理引擎,结合Etched企业的Sohu(Transformer架构的ASIC)芯片,实时监控生成。


这一架构选择保证了Sohu芯片的平稳扩展和快速推理,并以自回归的方式生成帧,可以根据游戏输入进行实时交互。


Sora模型根据用户输入的文本内容直接发布视频,但是Oasis使用Diffusion。 Forcing练习,每次只生成一帧,根据游戏输入在token级别调整每一帧,所以可操作性非常高。


之所以可以称之为「世界模型」,因为Oasis已经能够理解复杂的游戏机制,例如理解物体和建筑物,照明的物理规律等等。



理解照明模型的物理原理。



放置正方体砖


然而,在生成游戏画面时,另一个问题是如何保证时间稳定性。因为在自回归模型中,如果一张图片出了问题,后面可能会越来越乱,就像多米诺骨牌一样。


要解决这一问题,需要长时间的文本生成创新,Oasis的方案是安排动态噪声。(dynamic noising)。



Decart团队还表示,今后将研究一些远处物体的模糊性和不确定物体的时间一致性,逐步提升Oasis的游戏体验。


02 两个初创企业,强强联合


新时代的生成式交互体验来了吗?这两家创业公司的起源是什么?


根据公开报道,Oasis模型是由Decart和Etched两家创业公司联合推出的。


Decart成立于2023年9月,一直致力于提高AI模型的效率,降低使用成本,提供更快、更可靠的培训和即时推理,成立三个月后,与一家GPU云服务提供商达成数百万美元的交易。



MosheeDecart创始人 Shalev和Dean Leitersdorf


如今,红杉资本投资了2100万美元,合作伙伴Shaun Maguire甚至大力称赞Decart团队,认为他们是「AI工程师超级精英」、「最有才华的团队之一的合作技术」,正把生成式的感觉推向完美。



现在推出的Oasis只是一个即时推理的热身试验,在接下来的几个月里,他们也将发布更具颠覆性的结果。


另外一家创业Etched是一家来自美国的人工智能芯片公司,成立于2022年,三位核心创始人均为哈佛辍学生。


在Sohu-世界上第一个基于Transformer结构的ASIC芯片上,他们最耀眼的成就就是推出了Sohu-,专门为LLM推理加速打造,不仅比Groq快,而且还可以推出英伟达最新的B200。



使用Llama 以70B模型推理性能为例,一张Sohu≈20张H100≈10张B200。



在令人惊叹的性能背后,是Etched的一场豪赌般的衡量。


构建一个针对特定算法的AI芯片,直接将模型架构烧录到芯片硬件结构中,这意味着其他模型无法运行,比如CNN。、RNN或LSTM,但是对于Transformer来说,可以获得迄今为止最快的芯片。



创始团队在2022年大胆推测——Transformer将占领世界,因此花了两年时间研发,获得了今天的Sohu。


GavinininEtched创始人之一 Uberti说,「我们正在下注人工智能领域最大的筹码——一个只能运行Transformer模型的芯片,但它的启动速度比GPU快几个数量级。也许注意力真的是你需要的。...」



可以高效推理的AI芯片,对于极耗计算能力的视频生成来说,可以算是类似于Scaling。 Law的福音。


虽然文生视频模型已达到良好的生成效果,但是速度特别慢,成本也很高。


视频中的每一帧都包含数百甚至数千个图标,需要并行计算几次才能完全消除噪音。最好的模型平均值每秒不到一帧,每个用户每分钟的成本可能高达1美元。


这一低效率、高成本的推理,不得不说是视频生成模型在实际应用中的一大障碍,而这正是Sohu芯片所期望解决的问题。


今年6月,Etched宣布筹集了1.2亿美元用于扩大生产,并与台积电合作,直接威胁挑战市值3万亿元的英伟达,拥有35名精英团队。


参考资料:


https://x.com/shaunmmaguire/status/1852092981022794128


https://www.decart.ai/articles/oasis-interactive-ai-video-game-model


https://www.etched.com/blog-posts/oasis


本文来自微信微信官方账号“新智元”,作者:新智元,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com