稚晖君做了一个 “好东西”，网络视频也可以用来训练机器人

2025-03-13

上个星期五，稚晖君并没有在微博上做一波浅浅的预告。 "好东西" 嘛。

就在星期一，智元机器人立刻将热气抬起。

机器人为您端茶倒水，煮咖啡。

将面包放入面包机中，将烤好的面包涂上果酱，然后将面包端到您面前，整个动作一气呵成。

也可以在公司当前台，充当迎宾。

也就是说，在看到了多种人类机器人的视频之后，世超对于这种程度的展示，已经不足为奇了。

所以仅仅这些演示，还不足以称之为好东西。智元机器人此次发布的底座大模型 GO-1 （ Genie Operator-1 ），这才是真正值得拿出来唠叨的好东西。

这么说吧，这一大型底座模型，使得人形机器人长期缺乏数据、泛化能力差的问题更加有效地解决了这一问题。

也许每个人都知道，现在的人形机器人之所以看起来很拉胯，其中一个重要原因就是 缺少高质量的数据。

而且获取这些数据的成本，同样也很高。

为解决这一行业难题，去年年底，智元机器人已开源百万真机数据 AgiBot World 。

AgiBot World 所有的数据都来自智源的数据采集工厂，里面有很多模拟真实场景。数据采集者的日常任务是教机器人如何执行某些任务。

据官方声明， AgiBot World 包括了超出 100 万条轨迹、 217 个任务和 106 一个场景。但即使是这个数量级的数据，对于机器人来说还是九根牛一毛，机器人泛化能力差的问题也无法处理。

所以，智元机器人才正在进行 AgiBot World 在此基础上，又提出了新的建议 ViLLA （ Vision-Language-Latent-Action ）架构。这一结构，就是 GO-1 大型模型的关键。

世超翻翻了翻智元机器人发表的论文，简单地用大白话给大伙儿介绍一下， ViLLA 牛到底在哪里？

第一，在数据方面， ViLLA 结构没有那么挑剔。

据官方介绍， ViLLA 架构是 由 VLM ( 多模态大模型 ) 和 MoE ( 混和专家 ) 构成。

传统的 VLA 结构，融合 VLM 而且端到端的特点，因此这种结构需要大量标注的真机数据进行训练，费钱费力，而且信息量还很小。

ViLLA 尽管本质上还是如此 VLA 结构，但是它强大而强大，这些网络上的人类视频数据也可以使用。。

换言之，基于 GO-1 理论上，大型机器人只要 "看过" 录像，可以学习相应的动作。

对这些原因来说，世超觉得很有可能是因为这个原因 “潜在动作” （ Latent Actions ）。

咱还是拿 VLA 作为对比， VLA （ Vision Language Action ）在执行任务时，结构就是这样一个过程：输入图像和语言指令，然后机器人根据这些信息生成并执行指定动作。

看起来简单直接，但是稍微遇到一些复杂的任务，机器人会变得能够理解和理解，但是做不好甚至做不到。

举例来说，我们要求机器人（ VLA 架构）制作一杯咖啡，机器人可以看到咖啡机在哪里，也可以理解我要它做咖啡。

可是， VLA 机器人在架构下应该直接存在。 "看见咖啡机"" " 懂得做咖啡 " ，突然想清楚所有的步骤，然后马上开始，中间没有思考的过程。

DeepMind 的 VLA 模型 RT-2

问题是泡咖啡其实中间有很多小步骤，比如找咖啡豆，打开咖啡机，按下开关。即使人们来了，他们也应该在做任何他们想做的事情之前思考一下。

更何况是 "一根筋" 的 VLA 结构，让它处理中间这些复杂的过程，多少有些让它难堪。

但 ViLLA 结构，引进了两个人 "专家" ：隐式规划器（ Latent Planner ）和动作专家（ Action Expert ）。

这两位专家不仅可以让机器人想得更多，而且可以做更多的事情。

不懂专有名词也没关系，我们继续举例吧。

假定现在输入一个视频，就是一个人拿起杯子喝水。

VLM 多模态大模型将首先处理视频，然后进行潜在的动作模型。（ Latent Action Model ），这些复杂的视频动作将被分解成几个关键步骤，例如 "抓取" 、 " 挪动 " 和 " 喝水 " 。

但是光到这一步是不够的，隐式规划器（ Latent Planner ）要继续加工关键步骤，生成更详细的步骤： "抓住(杯子)，移动(杯子到嘴边)，喝" 。

最后，动作专家（ Action Expert ）把这些步骤全部转换成机器人可以理解的信号，让机器人执行动作。

因此 ViLLA 在执行复杂任务时，架构的表现将比较 VLA 更加出色，也更加适应当前人形机器人的实践需要。

而且世超也注意到了， ViLLA 结构不依赖于特定的硬件。

也就是说， VLA 结构是根据特定的机器人本体，特定的场景，生成动作信号， ViLLA 结构产生的是 "抓取" " 挪动 " 这一通用动作标记，具有较好的任务泛化能力，也更容易转移到其它机器人平台。

给大伙儿一句话总结一下，GO-1 使机器人能够从互联网上的人类视频数据中学习，增强拆解任务的能力，提高复杂任务的成功率，同时提高泛化能力。

如果 GO-1 效果确实如官方所述，那么这对于整个人形机器人行业来说，或许是个好消息。

不用担心数据，还没有选择平台，这个机器人训练起来就方便多了。我就是不知道这个。 GO-1 ，智元是否会选择继续开源？

听到这里，智元机器人明天还要释放一个惊喜，让我们等一手行。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

北京今年发布了第一个风沙预警，中小学暂停户外体育活动！周末气温骤降

预购1小时零跑B10订单突破万，激光雷达版占73%

国内计算率订单潮来袭，新三板突然出现了高计算率订单！

学习菠菜烧烤味花卷，解锁纯正的味道

再次出手！鸿蒙智行法务起诉媒体博主