身体智能照进现实,物理 AI 解决人形机器人量产困境

02-21 07:58

电子爱好者网报道(文章 / 吴子鹏)CES 2025 世界上,人形机器人新产品密集发布,成为展会最大的亮点之一。透过 CES 2025 不难看出,今年将成为全球人形机器人发展的关键一年,大量人形机器人项目将开始大规模量产,产品功能丰富多样。


现在,已经包含了 Walker S1 包括人形机器人进厂实习,还有很多陪伴人形机器人进入情景调整的重要环节。如何使人形机器人在这一过程中更好地了解真实的物理世界,成为工业爆发需要补充的最后一个环节, NVIDIA 的 Isaac GR00T Blueprint、Cosmos 基本的世界模型(WFM)和 Jetson Thor 芯片引起业界广泛关注的原因。


人形机器人重点市场分析及技术前沿探索


伴随着技术和产品的逐步成熟,全球人形机器人产业的发展产生了澎湃的动能。高盛在报告中预测到, 2035 全球人形机器人每年的出货量将达到 140 市场规模约为万台 380 亿美金。与两年前的预测相比,这种预测(约两年前) 60 亿美元增加了 6 倍多。根据中国信息通信研究院发布的《人形机器人产业研究报告(2024年 人形机器人的发展主要分为:版本) 5 每个阶段,分别是:


Lv1 实现基本能力:具有稳定的行走、跑步、跳跃和初步的交互能力;


Lv2 初级智能化实现:特定场景下的特定功能,结构化任务,泛化能力较弱;


Lv3 情景智能化实现:能在特定场景中完成大部分非结构化任务,具有一定的泛化能力;


Lv4 多场景适应:大多数非结构化任务都可以在多个场景中完成,不少于 3 个场景;


Lv5 全面智能化实现:通过简单的学习,实现真正的具体智能,完成各种任务。


如图所示,当到达 Lv5 在这一阶段,全球人形机器人的部署规模将超过 1 亿台,市场规模将达到约1亿台 10 万亿元,其中工业和服务场景是落地的主要领域。NVIDIA 机器人和边缘计算副总裁 Deepu Talla “在我看来,机器人是人工智能最大的应用方向之一。“有三个促进因素使机器人不可或缺,包括工作进化和职业选择造成的劳动力短缺。矿工等工种仍在危险环境中工作,以及人类寿命延长和人口老龄化带来的养老问题。毫无疑问,在这些场景中,人形机器人作为目前最智能的机器人形式,具有更好的实用性和光明的市场前景。


当前,全球人形机器人的发展主要在于 Lv1 和 Lv2 在实习阶段,应用于工业场景的人形机器人产品大多处于实习阶段。 Lv2 阶段,代表着工业技术的前沿。人形机器人向往“人形”的主要目的是塑造相当于人类的通用能力,从“专机专用”逐渐走向“一机多用”。从事工业制造的人形机器人将在封闭过程中逐步扩展到整个工厂;从事服务项目的人形机器人将走出家门,走向全社会。


为了实现人形机器人的通用能力,需要加强机器人的“大脑”、“小脑”和“肢体”能力。该功能模块负责人形机器人的任务调度、运动控制和感知执行。Deepu Talla 我认为,目前全球人形机器人市场的爆发主要得益于技术的发展和模拟环境的改善,涉及到人形机器人的模型训练、环境感知和最终部署。所以,建造人形机器人需要使用“三台计算机”:


第一台计算机用于训练:一般云、数据中心或 NVIDIA DGX 在这样一个强大的平台上进行,是构建机器人“大脑”的关键步骤。例如,开发者可以 NVIDIA DGX 平台上使用 NVIDIA NeMo 练习和微调生成式 AI 模型,使人形机器人更智能。


第二台计算机用于模拟:模拟平台和模拟环境允许训练后的人形机器人进行低效、高成本、高风险的物理测试。开发者可采用“数字孪生”的方法, NVIDIA OVX 在服务器上运行 NVIDIA Omniverse 在虚拟环境中构建模拟层,完成人形机器人的功能测试。在大规模、快速、安全的条件下,模拟可以运行数千个场景测试,而不受现实世界时间和成本的限制。开发者也可以使用 NVIDIA Isaac Lab,这一开源机器人学习框架能显著提高人形机器人练习和优化的效率。


第3台计算机用于部署:作为机器人的“大脑”,需要将练习和检测完成的模型和系统部署到人形机器人内部。举例来说,NVIDIA Jetson Thor 计算机软件就是 NVIDIA 专为人形机器人设计的紧凑计算平台。


从目前的行业发展情况来看,用于培训、模拟和部署的高性能计算系统在性能提升方面取得了长足的进步。然而,如何利用这些硬件进行练习和模拟仍然存在一些不足,并逐渐演变成人形机器人行业发展的瓶颈。其中一个显著的行业问题是用来模仿学习的专家数据,无论是获取效率还是获取信息量,都无法很好地满足当前人形机器人爆发对参考演示数据集的需求。


具体来说,多角度模仿人类机器人是实现人类机器人功能的主要技术逻辑。然而,目前人类机器人“大脑”是 AI 大型模型一般采用基于视觉或语音的感知模式,对真实物理环境的认知有很大的限制,尤其是泛化能力。当前人形机器人在面对新环境和新任务时的表现通常并不令人满意。


模仿学习是人形机器人练习和检测调整的关键因素,其主要方法包括行为复制(Behavior Cloning)、反向强化学习(Inverse Reinforcement Learning)等待实现的方法,不管是哪种方法,都需要大量的数据作为参考。为提高基于有限数据的训练算法模型的效果,开发者在开发模仿学习算法模型时,往往会选择 DAgger(人类重新演示不良效果)或模仿给出策略(尽可能通过奖励网络拟合提供的教学数据)等措施,但这些措施存在一些先天不足。


例如,DAgger 依靠人工优化一些不好的训练结果,效率很低,很多机器人无法实现的策略,比如超高性能的手控、六轴陀螺仪动作校正等。;GAIL(Generative Adversarial Imitation Learning)在反向强化学习中,一种示例模拟算法,但由于专家数据不足,这些策略也可能导致无法收敛,无法获得令人满意的调优结果。


此外,事实上,人形机器人对物理世界的真实反馈无法反馈到之前的各种练习和模拟机制,在实际安排过程中会出现大量超出练习和检测范围的情况。过去,人形机器人需要在长时间的实习期间进行大量的反复校正,以尽可能地突破真实工作环境带来的行为约束,这需要时间和精力。所以,物理 AI 迫切需要引入人形机器人练习和模拟阶段。


Isaac GR00T Blueprint 使人形机器人更好地了解物理世界


作为物理与 AI 前沿的技术交融领域,物理 AI 是生成式 AI 下一步发展的重点方向之一。 NVIDIA 网站上的术语解读,物理 AI 它是指利用运动技能了解现实世界并与之互动的模型,一般封装在机器人或无人驾驶汽车等自主机器中。


如上所述,传统的 AI 大模型是基于互联网上目前的文字和图片训练。训练数据类型使这些模型具有惊人的逻辑、概念和语言能力,但对现实物理世界的理解非常有限。部署到智能手机,PC 等待终端的时候,这些 AI 大模型会有很大的帮助,但是人形机器人需要从事生产和服务作为智能体,与现实世界有很多互动。这时,传统 AI 作为一个人形机器人,大型机器人的“大脑”也会受到很多规则的约束,自主性很低。


物理 AI 通过 3D 对数据进行训练,加强学习方法,为人类机器人的发展带来强大的物理世界模拟功能,提供安全可控的环境训练。随着物理世界的“数字孪生”,人形机器人等自主机器可以安全快速地学习技能,在模拟物理环境下,通过1000多万甚至上百万的试错行为,显著提高了人形机器人在现实物理世界中的自主性,提高了人形机器人执行任务的效率和准确性。这便是 CES 2025 上 NVIDIA 推出 Isaac GR00T Blueprint 对人形机器人产业的巨大价值。


Isaac GR00T Blueprint 这是一种专门用于产生运动轨迹的工作流程,如图所示,Isaac GR00T Blueprint 结合 GR00T-Teleop 工作流程,GR00T-Mimic 工作流和 GR00T-Gen 工作流程,这种完整的工作流程促使开发者只需要少量的人类示范,可以很容易地生成大量的生成数据。


Isaac GR00T Blueprint 工作流程解决了人形机器人练习和模拟环节的核心问题——数据获取成本高、效率低、 3D 数据缺失。在数据获取阶段,开发者可以通过 GR00T-Teleop 工作流程和虚拟现实设备进行动作示范, DAgger 等待算法模型选择不同的人工反复优化,GR00T-Teleop 工作流可以记录开发人员的少量示范动作,成为模仿学习的“金标准”,然后让人形机器人在虚拟环境中进行大量试错,最终达到规范动作。


Deepu Talla 指出,与自动驾驶可以通过目前的车辆获取数据不同,现阶段机器人的数量不足以产生如此大的数据,尤其是作为新产品的人形机器人。所以,数据的稀缺导致了传统人形机器人练习和模拟的局限性,生成数据就显得尤为重要。GR00T-Mimic 工作流和 GR00T-Gen 工作流则重点解决了这个难题,其中 GR00T-Mimic 通过捕捉人类的示范动作,工作流可以扩展生成更多的运动数据; GR00T-Gen 工作流借助 NVIDIA Omniverse 和 NVIDIA Cosmos 平台,通过域随机化和 3D 提升技术,进一步指数级扩展这个数据集。


整个工作流程中,NVIDIA 最新推出的 Cosmos 这是用来加速物理的 AI 开发平台,包括一系列开放的预训练世界基础模型,可以预测和生成神经网络,在未来虚拟环境中物理感知视频。Cosmos 该平台的推出解决了人形机器人环境数据稀缺的问题,支持开发者直接使用 Cosmos 模型生成符合物理规律的合成数据,或者使用 NVIDIA NeMo 框架,根据自己的视频微调模型,实现特定的物理 AI 设定,在模拟环境中优化各种人形机器人功能。根据 NVIDIA 官方资料共享,Cosmos 平台已基于 2000 在现实世界中,人类互动、环境、工业、机器人和驾驶数据被训练了一万个小时。 9000 万亿个 token。因此,Cosmos 与目前先进的平台相比,平台给开发者带来了倍增的工作效率。 tokenizer,Cosmos tokenizer 总压缩率高 8 倍,响应速度快 12 倍。


通过 Isaac GR00T Blueprint 工作流和 Cosmos 全球基本模型,NVIDIA 帮助开发者铺平了人形机器人从实验室走向真实物理世界的道路,解决了人形机器人布局量小导致的数据短缺问题。同时,凭着 NVIDIA Isaac GR00T、Omniverse 和 Cosmos 等渠道,NVIDIA 它提供了世界领先的人形机器人生态系统,拥有大量的人形机器人合作伙伴。举例来说,波士顿动力,Figure 和银河通用等人形机器人公司正在使用 Isaac GR00T 开发自己的人形机器人系统;1X、Agile Robots、Agility、Uber 等待公司开始使用 Cosmos 基本的世界模型。


高性能计算芯片是实现物理的 AI 的关键


综上所述,物理 AI 整合将进一步激发人类机器人的发展潜力,Isaac GR00T Blueprint 工作流和 Cosmos 世界基本模型的推出,解决了人形机器人训练数据短缺的问题,尤其是让人形机器人更好地了解现实世界。 3D 资料短缺问题,打通了人形机器人“最后一公里”的大规模落地。


希望更好的使用 Isaac GR00T Blueprint 工作流和 Cosmos 没有世界基础模型, NVIDIA 提供丰富的硬件资源。例如,在 Isaac GR00T Blueprint 工作流中,Cosmos 基本的世界模型和 NVIDIA Omniverse 数据指数级扩展已经完成,在此过程中,运行, Cosmos 它需要强大 NVIDIA 以计算芯片为支撑。按照测试数据,等效功耗 CPU 系统中处理 2000 一万小时视频数据将需要 3 时间超过一年,但现在 NVIDIA Hopper GPU 运行 Cosmos 平台只用 40 天就能处理 2000 如果选择了万小时的数据, NVIDIA Blackwell GPU,这个数字将进一步缩短到更短 14 天。


事实上,NVIDIA 对于人形机器人所需的三台计算机,可提供高性能计算系统。就实践而言,开发者可以基于实践。 NVIDIA DGX 平台使用 NVIDIA NeMo 练习和微调自己的人形机器人算法模型;在模拟方面,NVIDIA OVX 在服务器上运行 NVIDIA Omniverse 提供开发平台和模拟环境,Cosmos 该平台的加入进一步加强了这一能力;在部署方面,NVIDIA Jetson 为人形机器人提供高计算能力、高效率的机器人平台。


Jetson 是 NVIDIA 专门为机器人等边缘设计 AI 应用于构建紧凑的计算平台,提供丰富的硬件、预构建和云原生软件服务。在这一阶段,开发者可以选择 Jetson 模组包含 Jetson AGX Orin 系列、Jetson Orin NX 系列和 Jetson AGX Xavier 系列等。


Jetson Thor 系列是 NVIDIA 基于新一代专为人形机器人设计的紧凑计算平台,即将推出。 NVIDIA Thor 系统级芯片。根据 Deepu Talla 透露,Jetson Thor 可以实现平台性能 1050 TOPS,最大功耗可达 120 瓦片,是目前最强大的人形机器人部署平台。人形机器人需要应对复杂多样的环境和任务,因此开发者创造了许多不同的环境和任务。 VLA模型(视觉、语言和动作),Jetson Thor 该系列能够为这些模型提供足够的算率支持。


商品之所以能够形成如此丰富的硬件矩阵,是因为每一代人 GPU 结构基本相同,这种结构的一致性保证了人形机器人等。 AI 无缝连接和灵活运用云端和端侧部署,使人形机器人能够应对更多的情况和任务。每一代人当然都有 GPU 结构迭代也会带来很大的芯片性能提升,NVIDIA Thor 在系统级芯片的背后 Blackwell 结构是芯片成为最强大的人形机器人部署平台的关键因素之一。


对于 Blackwell 每个人都非常熟悉架构,作为一个 NVIDIA 最新一代 GPU 基于多代的结构 NVIDIA 技术构建,包含第二代 Transformer 引擎、Blackwell Tensor Core 技术、NVIDIA TensorRT-LLM 技术、NVIDIA 秘密计算技术,NVLink 技术,解压缩引擎等。同时,基于 Blackwell 架构的 GPU 采用先进的制造工艺,包括专门定制的台积电 4NP 通过工艺和双倍光刻极限尺寸裸片, 10 TB/s 片间互联技术组合成一个统一的组合 GPU。这一关键的结构创新 Jetson Thor 该平台具有优异的计算能力和能效性能,为搭载最先进模型的人形机器人提供硬件性能保证。


结语


如同 Deepu Talla 据说,目前人形机器人技术的发展日新月异,还没有哪一种呢? VLA 该模型被业界认定为通用人形机器人落地的最佳方案。然而,在发展初期,人形机器人训练数据缺失的痛点十分明显,尤其是提高环境交互能力的痛点。 3D 数据。由于缺乏这些信息,传统人形机器人的发展面临着人工优化工作量大、学习模式不易收敛等问题,成为行业发展的制约因素。


通过推出 Isaac GR00T Blueprint 工作流和 Cosmos 全球基本模型,NVIDIA 帮助开发者完善模拟学习和加强学习流程。为特定任务提供不同的参考架构,通过多样化的参考架构。 Blueprints,还有世界领先的 NVIDIA Omniverse 3D 仿真环境,Isaac GR00T Blueprint 训练数据与现实世界的不一致性最大化,帮助人形机器人适应真实的任务场景。


在这些工作流程、世界基本模型和模拟环境背后,NVIDIA 提供丰富的硬件资源,涵盖人形机器人开发所需的“三台计算机”需求,即将推出。 Jetson Thor 该系列为各种技术路径的人形机器人落地提供了足够的算率支持。拥有这些软硬件资源,10 有望提前实现万亿全球人形机器人市场规模。


阅读更多热门文章


加关注 星标我们


把我们设为星标,不要错过每一次更新!


喜欢就奖励一个“在看”!


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com