这个“超级天才”野心勃勃,想要垄断人形机器人的“大脑”?

03-17 09:12

现在的人形机器人,都是“无脑”的。


对于这些人形机器人的控制,取决于程序员“预编程序”向机器人输入状态描述和应对方法的规则,然后在相应的前提下完成操作。


在一次采访中,宇树科技创始人王兴兴曾通俗地解释说:“你可以让他(人形机器人)倒立、空翻,或者做一些避障措施。这些都是针对固定任务的专项AI培训”,是单一功能的AI。


举例来说,人形机器人在央视春晚跳手帕舞这一复杂的任务场景,可能是按照“预先编制的程序”来练习的。


但是,一旦情况和任务稍有改变,人形机器人的成功率就会暴跌。


就像春晚表演结束后,人形机器人离开舞台,需要有人帮忙“掐脖子”。面对刘谦的握手邀请,人形机器人突然跪下瘫痪。


刘谦发布的春晚花絮截图


甚至,控制人形机器人,有时还需要工作人员通过控制器进行操作。


这些人形机器人在某种程度上是一个提线木偶,遥控玩具,不能称之为“人”,因为它“没有头脑”。


这就是为什么人形机器人很难快速量产,没有客户愿意为一个不够聪明的人形机器人买单。“傻瓜”人形机器人如何应对我们物理世界千变万化的局面?


对于人形机器人“笨”的原因,王兴兴直言不讳地说:“现在普遍使用的AI还不够。”他指出,全世界都在等待真正的机器人“大脑”的出现。


人类机器人“大脑”的研究开发,无疑是一条非常有趣的跑道。


对于这条赛道,彭志辉非常感兴趣。


彭志辉曾是华为的“超级天才”,年薪一度达到200万元。与普通企业家不同,他离职创业。


他有更高的追求,他创建的智元公司并没有跟随同行,而是专注于机器人,而是把它放在机器人的“大脑”上。


近日,智元公司发布了第一款通用具体底座模型——智元启元大模型Genienie Operator-1(GO-第一,意味着国内机器人从单一功能到多场景泛化的技术突破。


GO-看起来王兴兴的“泛用性AI还不够”问题已经得到了回答,但是距离真正的机器人“大脑”还有很长的路要走。


而且彭志辉和智元机器人“欲望”:但愿未来所有的机器人都能共享同一个“大脑”——GO-或者很难实现。


不是“第一家”


人形机器人从来都不是什么新鲜事。


在过去的几十年里,世界各地都开发了各种各样的人形机器人。文学作品不断诠释着人形机器人的“无所不能”,人们对这个形象非常熟悉。


但是《刃辛机器人》了解到,人形机器人在我们的生产中很少使用。


如今,零星的“在工厂工作”不是人形机器人,而是各种形式的工业机器人,如机械臂,从事重复性和机械性的工作。


到目前为止,人形机器人的“炫耀”功能远远大于实际功能。


王兴兴成立宇视科技之初,并没有直接开发人形机器人,而是从双脚机器狗产品开始。2009年,他尝试成为一个人形机器人,这太复杂了,无法控制。


在AI大模型出现之前,它给人形机器人带来了新的想象。


简单来说,在大模型的帮助下,引入语义理解和推理生成的能力,就相当于在人形机器人上安装了一个“大脑”,可以理解世界和人类,真正为人们服务。


然而,这只存在于“想象”阶段。正如王兴兴所说,目前普遍使用的AI还不够,即用于人形机器人的智能模型还不成熟。


ChatGPT、Deepseek等AI模型不能直接用于人形机器人,因为它们充当“大脑”。为了通向AGI,人形机器人需要专门针对智能领域的多模态大模型。 —— 为了提高机器人在感知、决策、控制、交互等方面的能力,具有智能模型。


具体智能模型是一种特殊的大型模型,以AI技术为基础,专门赋能人形机器人,帮助人形机器人在通用应用场景中实现下落。


ChatGPT、Deepseek等非全身智能大模型服务的对象是人类,导出的内容是给人看或者给人看,更多的是在人机交互、内容生成等方面展现价值。


智能大模型的服务对象是机器,它的导出内容需要机器人能够理解,最终转化为具体的可执行动作控制指令,然后与周围环境互动,给出各种动作。


智源机器人推出的GO-1绝不是中国第一款智能模型。在此之前,国内一些机器人初创公司已经开始推出自己的智能模型。


举例来说,鹿机器人Master 2000、若愚科技九天大模型,千诀科技千诀.机器人大模型,穹彻智能Noematrix Brain、X squareGreat(自变量机器人) Wall系列WALL-A模型和千寻智能具体智能模型...


GO-1仅仅是国内首个通用的具体底座模型。


所谓通用具体底座模型,采用模块化架构(如ViLLA框架),整合多模态大模型。(VLM)、隐藏式规划器和动作专家,支持跨自身适应和任务泛化,其重要特点是通用性。


简而言之,GO-第一,“什么都能做,但都不精”。


就像一个厨师,u200c可以看食谱学做饭(看人类视频学习),今天炒川菜,明天做西餐(适合不同场景),甚至可以用刚买的厨具(跨硬件)。虽然每道菜都不是顶级的,但是换菜单的时候不需要再买机器人(降低成本)。


陷入“数据荒”


GO-1离真正的人形机器人“大脑”有多远?


第一,不可否认的是,GO-1具有充当人类机器人“大脑”的潜力。


GO-通过ViLLA架构实现多模态学习,可以利用人类视频数据提高样本泛化能力,支持机器人从单一任务到开放场景的灵活转换。


比如,GO-智元机器人灵犀X2支持已经完成了骑自行车、缝葡萄等复杂任务,并且具有初步的自然语言交互能力。


它表明GO-1具有整合感知、决策和执行能力,符合“大脑”的核心需要。


GO-1也突破了传统预设程序的限制,可以结合语义推理执行动态指令u200c。


例如,灵犀X2可以通过自然语言指令完成充电合作、家务协助等任务,反映u200c从“工具”到“智能体”的转变。


其二,GO-离真正的人形机器人“大脑”还有很长的路要走。这个结论可以从智元公司对这个大模型的训练过程中得出。


那时,智元公司决定建立一个人形机器人“大脑”,发现门槛太高。


大家都知道,大模型的练习需要大量的数据投喂。


ChatGPT、非具体智能模型,如Deepseek,在训练过程中“吃”的数据可谓数不胜数。仅ChatGPT,就已经消化了全球互联网三分之二的文本语料。


人类机器人“大脑”所需的“喂养”数据,更多的是动作数据,因为它需要像人类一样做各种各样的动作。


网络上可以获得文本语料,但是动作数据特别难找。


智元公司曾试图在行业内寻找开源数据库,但发现几乎不存在高质量、统一格式的数据。


虽然行业开源了数百万个真实机器人收集的培训数据集,但实际上这些信息是由不同公司、不同产品规格的机器人收集的,数据质量较低,无法满足智源公司的需求。


智源公司决定“笨鸟先飞”,并采用“笨方法”,于2023年9月建立了动作数据收集工厂。在工厂里,我们一个个模仿人类生活中的每一个动作,收集它,形成数据,然后“喂”给大模型。


所以,他们在家庭、餐饮、超市、办公、工业等五种应用场景中建立起来。


在不同的场景中,数据采集者手持设备,手把手控制人形机器人完成抓、握、放等操作。有时候采集者戴着VR设备,让机器人准确地模仿和学习人类的动作。


比如在卧室里,人形机器人巧妙地向收藏家学习叠衣服。在餐桌前,机器人学会把餐具一个个摆放整齐,学会吃各种各样的菜,不会握手。在超市收银台前,机器人一只手拿着扫码器,另一只手拿着商品扫码。


每次人形机器人完成一个动作,他们都可以收集一套数据。当这些信息聚集并上传到云端时,智源团队会将其喂给大模型,这样机器人就可以真正掌握一项技能,如冲咖啡、熨衣服等。


愚蠢的鸟儿先飞,谈何容易?


只有一个续水动作,大模型需要“吃”上万条数据才能学会。据36Kr前几个月的报道,一个收藏家每天只收集150条左右的数据,工厂近100个机器人每天只收集3-5万条数据。


虽然仅仅几个月,智源公司就积累了数百万条高质量的标准动作轨迹数据,涉及217项任务,规模是世界上最大的。然而,与ChatGPT“吃”下全球互联网三分之二的文本语料料的量级相比,这些动作数据可谓少得可怜。


依靠这些“少得可怜”的动作数据,GO-1这种具身智能大模型何时能达到ChatGPT的智能水平?


欲望难实现


ChatGPT等AI大语言模型之所以聪明,是因为量变在不断“喂”其数据进行练习后,导致质变,然后在某个时间点,突然出现的超越模型初始设计和预期的不可预测的智能行为或能力,即“智能出现”现象。


业内称之为u200c尺度定律。也就是说,随着模型参数、培训信息量和计算资源的指数级增长,模型性能可以预测幂律。(Power Law)提高u200c的方法,甚至在某些任务中表现出“涌现”的智力。


拥有智能模型需要获得ChatGPT的智能,并且必须不断“喂”动作数据。只要“喂”够了,有一天,拥有智能模型的人就会突然变得聪明起来,真的像真人的“大脑”。


有多少数据需要“喂”出智能模型,才能像真人一样“大脑”?


智源公司采用的“笨方法”收集动作数据,堪称龟速。业内人士直言:“如果我们只依靠一家工厂收集数据,收集1亿条数据需要几百年的时间。”


当前,与大语言模型的“核爆点”相比,全球机器人动作数据还差3-4个量级。


现在智元公司想出了一个新的对策,就是联合同行一起收集数据。


智源公司首先开源自己收集的数据。“我不担心被超越,因为别人拿走了一些数据。另一方面,我也希望更多的人成为同道中人。”让我们一起收集数据。


GO-1的发布是为了解决数据不足的问题。然而,这也隐藏了智源公司及其创始人彭志辉的一个愿望,那就是“我希望所有的机器人将来都能分享同一个‘大脑’”,而这个大脑就是GO-1。


由于GO-1的一个主要特点是具有良好的泛化性,可以在不同的机器人本体上部署。通过GO-1,我们可以共享我们一起收集的数据。


GO-1作为第一个通用的身体底座模型,它是独一无二的。如果人形机器人公司没有专门的身体智能模型,可以共享数据。但是现在很多人形机器人企业都有自己的身体智能模型,都在进行数据“喂养”和艰苦训练。为什么要和GO-1分享数据?


GO-1要变得“聪明”,需要很多数据。为了满足u200c尺度定律,实现人形机器人“智能出现”的时刻,智元公司和多少企业一起收集数据?


仅仅依靠几家公司显然是不够的。即使与所有研发机器人“大脑”的企业合作,恐怕也不够。


结论:或者可以借鉴自动驾驶训练模式


随着国内智能新能源汽车的快速发展,L3级自动驾驶汽车开始量产。


汽车可以自动驾驶,也经过了大量相关数据的“喂养”和训练。在物理世界中收集车辆行驶路试所需的数据既费时又费力,无法完成。


根据美国兰德公司的研究,无人驾驶汽车需要110亿公里(177亿公里)的里程检测,才能保证绝对安全。假设车队由100辆车组成,每年365天,每天24小时以28英里/小时的平均速度进行测试,大约需要500年。


在激烈的竞争中“生存”下来的汽车公司不可能采用这样的“愚蠢方法”。他们的做法是模拟训练,即以数学模型的形式数字化恢复自动驾驶的实际使用场景,建立一个尽可能接近现实世界的系统模型,然后进行训练。


模拟训练的速度是物理世界路测的千倍、万倍,这使得自动驾驶的发展如此迅速。


刃辛机器人认为,人形机器人的具体智能模型,也可以借助模拟训练,更快地实现“智能出现”的时刻。


但是,与自动驾驶相比,只需要模拟路面和周围环境等,具体智能大模型所需的模拟训练设计场景要多得多,复杂得多。(文字/刃辛机器人 陈重山


参考资料


[1] 上海具身智能“独角兽”为何强推这条路,“抓紧建厂拼量产”,上观、文报、沈莎莎


[2] “我们去看了智元机器人的“数采厂”等等!这不就是星球大战片场吗?”,36氪,智能出现,田哲


[3] “自动驾驶到底需要什么样的模拟?”,智车科技官方


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com