李飞飞首个「空间智能」模型发布:一张图片,生成一张图片 3D 世界

2024-12-04

今天凌晨,由「AI 教母」由李飞飞联合创办 World Labs 他们的发布第一个「空间智能」模型,只要一张图片,就能生成一张逼真的图片。 3D 世界


根据介绍,对于输入图像,这个「空间智能」该系统可以估计 3D 几何图形,添加场景中未见的部分,创建新的内容,实现每个方向。 3D 世界构建。


例如,当你输入图片:


你们会得到这样的东西 3D 世界:


与生成式 AI 照片或视频产生的工具 2D 内容不同,以 3D 该方法产生的内容具有较好的控制性和一致性。此外,该模型还可以适应各种场景类型和艺术风格,如生成不同的相机效果、3D 经典绘画风格的效果和效果 3D 内容。


它改变了我们制作电影、游戏、模拟器和其他物理世界数字表达的方式。


下面是官方完整的短片:


相机效果


World Labs 该团队在官方博客上写道,输出 3D 场景可在浏览器中立即呈现,并能完全控制摄像头。


这就是说,你可以像电子游戏一样使用自由移动的相机来探索它们,甚至可以模拟它们 3D 照相机的效果,如浅景深(也就是说,只有远离摄像机一定距离的物体才能对焦)多轴变焦(照相机位置和视线同时调整)。


1. 浅景深模拟效果


2. 多轴变焦效果


3D 效果


大多数生成模型预测像素, 3D 情景有许多好处:


长久现实:这个世界一旦形成,就会一直存在。即使你把目光移开,再回来,场景也不会改变。


实时控制:情景形成后,你可以在场景中立即移动。您可以关注一朵花的细节,也可以窥探某个角落,看看会发现什么。


正确的几何形状:产生的世界符合 3D 基本的几何物理规则。它们有一种物理感和深度感。它与一些人工智能生成视频的不真实感形成了鲜明的对比。


可视化 3D 绘制深度图是场景中最简单的方法,每一个像素的颜色取决于它与相机的距离:


你可以使用 3D 场景结构构建互动效果-只需点击一下,就可以与场景互动:


您还可以制作特效,使场景动画化:


进入绘画世界


World Labs 团队还试图窥探一些创意杰作背后的世界,从梵高、霍珀、修拉和康丁斯基的作品中创造了他们最喜欢的世界。重要的一点是,这「空间模型」原画中没有的内容可以生成。让我们一起欣赏 3D 世界名画版:


3D- 原生生成式 AI 的无限可能


研究小组认为,3D 世界生成可以自然地与其他人工智能工具结合。例如,您可以首先使用文本到图像模型生成图像,然后基于文本创建世界。


她们还与一些创作者合作探索 3D 原生生成式 AI 工作流程带来的各种概率。


比如,Brittani Natali 相机路径在生成的世界里精心设计,通过三部短片唤起不同的情绪,其工作流程融合在一起。 World Labs 的技术 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具:


研究小组说,这些结果是由他们产生的。 3D 第一次浏览世界。它们正在努力改进产生的东西。 3D 这是一种新的方法,世界大小和逼真,并试图与用户互动。


整理:学术君


如需转载或投稿,请直接在微信官方账号留言。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com