李飞飞首个「空间智能」模型发布：一张图片，生成一张图片 3D 世界

2024-12-04

今天凌晨，由「AI 教母」由李飞飞联合创办 World Labs 他们的发布第一个「空间智能」模型，只要一张图片，就能生成一张逼真的图片。 3D 世界。

根据介绍，对于输入图像，这个「空间智能」该系统可以估计 3D 几何图形，添加场景中未见的部分，创建新的内容，实现每个方向。 3D 世界构建。

例如，当你输入图片：

你们会得到这样的东西 3D 世界：

与生成式 AI 照片或视频产生的工具 2D 内容不同，以 3D 该方法产生的内容具有较好的控制性和一致性。此外，该模型还可以适应各种场景类型和艺术风格，如生成不同的相机效果、3D 经典绘画风格的效果和效果 3D 内容。

它改变了我们制作电影、游戏、模拟器和其他物理世界数字表达的方式。

下面是官方完整的短片：

相机效果

World Labs 该团队在官方博客上写道，输出 3D 场景可在浏览器中立即呈现，并能完全控制摄像头。。

这就是说，你可以像电子游戏一样使用自由移动的相机来探索它们，甚至可以模拟它们 3D 照相机的效果，如浅景深(也就是说，只有远离摄像机一定距离的物体才能对焦)多轴变焦(照相机位置和视线同时调整)。

1. 浅景深模拟效果

2. 多轴变焦效果

3D 效果

大多数生成模型预测像素， 3D 情景有许多好处：

长久现实：这个世界一旦形成，就会一直存在。即使你把目光移开，再回来，场景也不会改变。

实时控制：情景形成后，你可以在场景中立即移动。您可以关注一朵花的细节，也可以窥探某个角落，看看会发现什么。

正确的几何形状：产生的世界符合 3D 基本的几何物理规则。它们有一种物理感和深度感。它与一些人工智能生成视频的不真实感形成了鲜明的对比。

可视化 3D 绘制深度图是场景中最简单的方法，每一个像素的颜色取决于它与相机的距离：

你可以使用 3D 场景结构构建互动效果-只需点击一下，就可以与场景互动：

您还可以制作特效，使场景动画化：

进入绘画世界

World Labs 团队还试图窥探一些创意杰作背后的世界，从梵高、霍珀、修拉和康丁斯基的作品中创造了他们最喜欢的世界。重要的一点是，这「空间模型」原画中没有的内容可以生成。让我们一起欣赏 3D 世界名画版：

3D- 原生生成式 AI 的无限可能

研究小组认为，3D 世界生成可以自然地与其他人工智能工具结合。例如，您可以首先使用文本到图像模型生成图像，然后基于文本创建世界。

她们还与一些创作者合作探索 3D 原生生成式 AI 工作流程带来的各种概率。

比如，Brittani Natali 相机路径在生成的世界里精心设计，通过三部短片唤起不同的情绪，其工作流程融合在一起。 World Labs 的技术 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具：

研究小组说，这些结果是由他们产生的。 3D 第一次浏览世界。它们正在努力改进产生的东西。 3D 这是一种新的方法，世界大小和逼真，并试图与用户互动。

整理：学术君

如需转载或投稿，请直接在微信官方账号留言。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com