英伟达推出具身智能推理模型Cosmos Reason

08-14 06:57

英伟达发布了开源机器人推理模型Cosmos Reason,此模型支持复杂指令的分解与执行。

在SIGGRAPH大会上,英伟达推出了开源物理AI与机器人视觉推理模型Cosmos Reason,它能够把复杂指令分解为任务,并凭借常识来执行。


在当地时间周一开幕的行业顶级会议SIGGRAPH(国际计算机协会计算机图形学和交互技术特别兴趣小组年度会议)上,“全球股王”英伟达推出了一系列面向机器人开发者的世界模型、应用库和基础设施。

其中,最受关注的是参数量仅70亿的开源物理AI应用和机器人视觉推理模型Cosmos Reason。

英伟达表示,自OpenAI多年前发布CLIP模型后,视觉语言模型改变了计算机视觉任务,如物体与模式的识别等。不过,此前的模型无法解决多步骤任务,也难以应对模糊或新颖的现实体验。

凭借记忆和理解能力,Cosmos Reason能让机器人和AI具身代理“像人类一样推理”,并在真实世界中采取行动。

在英伟达给出的案例中,运行视觉推理模型的机器人手臂,依据“面包 + 烤面包机”的场景,成功推断出最合理的下一步动作是将面包放进烤面包机烘烤,并把思考逻辑转化为机器手臂的操作指令。

(来源:英伟达)

这项功能被称为“机器人规划与推理”。Cosmos Reason可作为机器人的“大脑”,负责有意识、条理化的决策。视觉推理模型能解释环境,面对复杂指令时将其分解为任务并利用常识执行。

此外,这个模型还可用于一系列AI应用。例如自动化对大规模、多样化训练数据集进行整理、标注,也能从海量视频数据中提取有价值的信息并进行归因分析。

目前该模型已投入商业化运营。英伟达透露,公司内部的机器人和自动驾驶团队正使用这个模型进行数据整理与过滤、标注以及VLA(视觉语言动作)后训练。优步(Uber)也在使用该模型为自动驾驶训练数据进行标注与生成说明。

除此之外,麦格纳国际正在使用该模型开发全自动即时配送解决方案City Delivery,以帮助车辆更快适应新城市环境。VAST Data、Milestone Systems也在交通监控自动化、视觉检测等领域应用该模型。

除了Cosmos Reason,英伟达还在Cosmos世界模型中新增了Cosmos Transfer - 2,用于加速从3D仿真等场景生成合成数据,以及一个经过蒸馏、更注重速度优化的Cosmos Transfers版本。

英伟达还在周一更新了Omniverse软件开发工具包,并公布了新的神经重建库。其中包括一种渲染技术库,允许开发者使用传感器数据在三维中模拟现实世界。

这一系列发布标志着AI芯片巨头英伟达正在加大进军机器人领域的力度,试图将其培育成AI数据中心之外的下一个重要应用场景。

本文来自微信公众号“科创板日报”,作者:史正丞,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com