英伟达开源于适应多模态。「世界生成」模型，打开机器人，自动驾驶训练革命

03-25 11:49

刚刚发布的Nvidia「世界生成」Cosmos-Transfer1模型可根据各种模态空间控制输入(如分割、深度和边缘)生成世界模拟，使世界产生高度可控。开发者可以通过使用模型来建立一个高度逼真的模拟环境来训练机器人和自动驾驶车辆。

最新最新的Nvidia「黑科技」Cosmos-Transfer1模型令人震惊，能够创造高度逼真的模拟环境，反向生成「真实世界」！

Cosmos-Transfer1是一种自适应多模态世界的生成模式。真实世界模拟可以通过控制各种模态空间(如分割、深度和边缘)生成。

小心！右边的场景不是「真实场景」，而通过HD Map高清图和Lidar雷达图即时「生成」的！

这一生成能力给未来的数字世界带来了太多的想象和概率！

在物理AI开发中，也有望解决一个长期的挑战：缩小模拟环境与实际应用之间的差距。

真实的物理世界就是用多种模式来感知的，比如上图中的四种模式：RGB Camera、Lidar雷达图，Depth深度图和HD 高清地图Map。

Cosmos 推动高度可控的Transfer「世界生成」在Sim2Real(虚拟模拟世界向现实世界的转换)中，成为可能，并在各种世界向世界的转换用例中找到应用。

Cosmos 强大的Transfer「世界生成」能力

第一，Nvidia等基于真实物理的发动机 Omniverse、Genesis等，生成模拟视频数据，遵循真实的物理规律。

使用Cosmos 提高模拟数据的真实性和多样性，Transfer。

Cosmos Transfer不仅可以通过单一模态控制生成，还可以在不同的空间位置对不同的条件输入进行不同的加权。

产生单一模态控制

Cosmos Transfer可以通过单一模式生成逼真的现实场景。

下图显示了自行车机修车间、自动驾驶场景、真实机械臂等通过输入Edge边缘图、Depth深度图和Segmentation分层图生成的场景。

下图显示了Blur的输入。模糊场景图Visual 、高清地图HDMap 、生成机械臂操作、自动驾驶场景等Lidar雷达图。

产生多模态控制

空间条件方案在Cosmos-Transfer1模型设计中是自适应和可定制的。可以在不同的空间位置对不同的条件输入进行不同的加权。

使用HD输入 Map和Lidar雷达图可以生成真实的视频，用于自动驾驶训练。

基于多模态，Cosmos Spatiotemporalalall也引入了Transfer1 Control Maps时空控制权重图，黑色像素区域控制权重图为0.0，白色区域控制权重图为0.5，因此在右侧生成的视频中，权重高的部分效果更为明显。

一种输入，多种可能性

除能够产生单模态和多模态控制视频外，Cosmos Transfer1还可以生成各种现实风格的内容。

例如下图输入高清地图HD地图 Map，可生成Night夜景、Foggy雾天、Daytime白天、Snow雪天和Night五种不同风格的视频，Rainy晚上下雨。

输入Lidar雷达图片，同样可以生成5种不同的图片。风格的视频内容。

风格转换

同时，Cosmos Transfer可以将生成的视频内容转换成风格。。

视频风格可以转换为Modern现代风格、Simplistic简约风格和Warm风格。

Modern现代风格、Bakery风格和Sci-Fi科幻风格如下。

模拟机械臂视频 Factory工厂可以生成风格、Construction LivingSite建筑场景风格 Room起居风格等等。

无论是单一模式、多模式还是各种风格的视频，Cosmos Transfer都表现出了出色的能力。

「世界生成器」Cosmos 技术路线Transfer1

多模态可控世界生成是指基于多模态视频的输入，如分割、深度和边缘，生成世界模拟视频。

Cosmos-Transfer1是一个自适应多模式控制的世界生成器。它包含多个控制支系，用于从不同的模式输入(如分割、深度和边缘)中获取控制信息。

使用时空控制图w={w1,w2,,wN}对控制支系计算出的导出进行加权，然后将其反馈给主生成支系。

时间和空间控制图可以使用不同区域中最相关的模式来获得最佳的导出质量。

Cosmos-展示Transfer1训练结果

首个Cosmos-Transfer1的Nvidia实现被称为Cosmos-Transfer1-7B。

使用1024个NVIDIA H100 GPU对每个控制支系进行2-4周的训练，具体时间取决于模态。

上述展示使用相同的提醒在各个独立模式中（Vis、Edge、Depth、Seg）设置下，Cosmos-形成视频效果的Transfer1-7B。

Cosmos-Tr 1-7BBansfer [Vis] 改变纹理细节，同时保证色彩和整体构图。
Cosmos-1-7BBTransfer [Edge]保持物体界限，同时改变颜色。
Cosmos-1-7BBTransfer [Depth]保持情景几何结构。
Cosmos-1-7BBTransfer [Seg]保持情景语义。

Cosmos-1-7BBTransfer-Sample-AV是一种很自动化的驾驶设计模型。

Cosmos-1-7BBTransfer-Sample-AV [HDMap] 保留了原有的驾驶场景路面布局。
Cosmos-1-7BBTransfer-Sample-AV [LiDAR] 保留语义输入细节。

最后，Nvidia还训练了一个Upscale。 ControlNet，视频将会产生 720p 提高到 4k 分辨率。

下面的图表显示了4K 4KUpscaler的例子 Upscaler版本叫做Cosmos-Transfer1-7B-4KUpscaler。

Cosmos-Transfer1-7B-4KUpscaler将视频从720p提升到4k分辨率！

效果评价

Nvidia精心策划了TransferBench-一个包含600个例子的评估数据，以评估Cosmos-Transfer1的特性。

第一，单模态与多模态的对比。

对TransferBench上各种Cosmos-Transfer1配置的定量评估，考虑到所有模式模型都获得了最高的Quality。 Score。

第二，不同的方法（Vis、Edge、Depth 考虑不同的权重与Seg)进行研究。

黑色像素区域的控制权重为 0.0 ，这是白色区域 0.5 。

注意到，虽然标题大致指定了一家自行车修理店的场景，但是因为这些像素受到了 Vis 和 Edge 控制，蓝衬衣上的白色标志与男人的肤色保持一致。

另外一方面，对于原因 Depth 在分割控制的背景下，物体在场景中的位置是一致的，但其颜色和线条是随机的(如红色工具箱、黄色三脚架和白色维护架)。右墙上仍然增加了一个新的工具架。

另外一个例子是机器人数据生成中Cosmos-Transfer1的示例结果。

NVIDIA显示左列显示 Lab基于游戏引擎生成的虚拟输入视频，而右三列则显示了Cosmos-Transfer1-7B在单模态和多模态控制下使用不同提示词的生成结果。

Nivdia Cosmos平台

NVIDIA Cosmos 它是一个以开发者为导向的世界基本模型平台，旨在帮助物理人工智能开发者更快、更好地构建自己的物理人工智能系统。Cosmos 包括：

通过Hugginging可以预训练模型获得Face)，这些模型在 NVIDIA 允许免费商业使用开放模型许可证。
Apache 2许可下的训练脚本，用于各种下游物理 AI 使用模型进行后训练。

Cosmos-Hugginginging可以使用Transfer1模型获得Face。

参考资料：

https://github.com/nvidia-cosmos/cosmos-transfer1

https://x.com/_akhaliq/status/1902187161841000938

https://huggingface.co/papers/2503.14492

本文来自微信微信官方账号“新智元”，作者：定慧，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

年轻人一边排队一边吐槽，“烧烤便利店”在全国范围内盛开

JD.COM撤销品牌部，JD.COM内部人士:外部有误解。

存款利率“倒挂”，存款时间越长越亏钱？

美国正在沉睡，全世界都在关注中国的一次会议。

为什么要调整科技线？什么时候再回来？

项目推荐

爱亲母婴连锁品牌