机器人“稚晖君”长脑子了。

03-18 12:15

今年「两会」, “ 具身智能 ” 第一次被写入政府报告。这意味着机器人进入工厂、车间、超市甚至普通人家的过程都被按下了加速键。


关于跑道的密切关注和推进,一位90后在这几天出现了尖端。


3月10日,智源机器人创始人稚晖君(彭志辉)在社交平台上公布了自己团队的最新研究成果——第一个通用底座模型:智源启元模型(Genie Operator-1,下文简称 GO-1)。


它是世界上第一个基于大规模、高质量的自有数据、基于自有机器人本体训练和部署的机器人底座模型。


11日,灵犀X2发布,这是一款可以支持高自由度,配备情绪计算引擎的机器人。它不仅可以回答稚晖君提出的各种问题,还可以准确判断晚上是喝牛奶还是喝咖啡。


业内人士认为,智源机器人将在人形机器人领域迎来重大技术和产品突破。正如稚晖君在热身视频中所说:“我们不是在生产工具,而是在创造新的类别。”


目前,机器人技术面临许多困难。IDC中国研究总监李君兰在接受DoNews采访时提到,硬件维度的提高、机器人行动控制和协调能力、场景转移泛化、高计算资源消耗等都迫切需要逐一解决。稚晖君的这个“新品类”能成为机器人对症治疗的药物吗?


01.机器人将拥有“人脑”


这个行业对机器人寄予希望,它们的外表不仅要像人,而且要像人脑一样,有学习思考的能力,越学越聪明。


GO-第一个作用是帮助机器人大脑进化,它提出了ViLLA架构,这个架构由VLM(多模态大模型)组成。 MoE(混合专家)构成。


VLM,通过大量的网络图文数据获得一般的情景感知和语言理解能力;


MoE,包含「隐式规划器」和「动作专家」。前者通过大量跨越自身和人类操作的视频数据获得一般的动作理解能力;后者通过数百万台真机数据获得详细的动作执行力。


简而言之,当摄像机的视觉信号加上人类的语言指令,机器人的动作执行可以通过ViLLA框架输出。



看看官方的解读,GO-1除扩大机器人的运动能力外,更重要的是加强其AI能力,可概括为:


1、学习人类视频,结合互联网视频和真实人类示范,增强模型对人类行为的认知(即使杯子位置随意移动,学习人类续水)。


2、样品迅速泛化:GO-1具有很强的泛化能力,促使后期培训成本很低,可以在极少数甚至零样本下泛化到新场景、新任务(除了续水,还可以烤面包、抹果酱,这些都是以前没学过的场景)。



3、一脑多形:GO-1能在不同的机器人形式之间转移,快速适应不同的自身(多个机器人共同完成复杂的任务)。


4、持续进化:GO-1组合智元一整套数据回流系统,可以从实际执行中遇到的问题信息(优化机器人放置咖啡杯时的错误)不断进化学习。


与现有的最佳模型相比,智元发布的测试数据显示,GO-平均通过率从46%提高到78%。一些业内人士认为,GO-这种模型结构非常简单,没有太多的创新,主要是对现有的工作、数据和训练方法进行了大量的整合。


除GO-1外,智元还发布了机器人本体:灵犀 重约33.8千克的X2,全身有28个自由度,没有使用任何并联结构。


通过视频展示,它可以快速读取0帧先手的药品说明书,可以驾驶滑板车和平衡车,也可以使用针缝红提。



它也很有人情味,问它:“和狗一起落水先救谁” 在伦理问题上,也可以给出符合人类价值观的答案。



根据彭志辉的说法,智元为灵犀X2开发了一套基于Diffusion(扩散模型)的生成动作发动机。这样,机器人不仅四肢发达,而且头脑也不容易。随着机器人大脑的不断迭代,智元将在未来给机器人更多复杂的工作能力。


02.工厂建设训练,开源降本


在过去的一年里,智能和人形机器人的关注度一直在增加,但是面对从业者的困境却是复杂而现实的。


实践是机器人成功商业化最重要的一步,在真实场景中获取和训练数据通常是最困难的。


与大语言模型不同,机器人“大脑”的练习需要更多来自物理世界的交互数据,也就是真实世界的动态环境,需要大量的设备和时间来收集。如何获取、如何获取、现有数据的标准化,已经成为人形机器人技术进化路上最大的问题。


DoNews记者了解到,目前人形机器人获取数据的方法主要包括遥操作机器人数据、人类动作捕捉数据、模拟生成数据以及一些特定的技术和框架。



智元机器人是怎样解决数据问题的?她们选择建厂实践。


在上海,智源建了一个占地约3000平方米的“数据收集工厂”,里面分布着许多不同主题的房间。每个房间都再现了现实生活中的物品布局,机器人学习了不同的技能:叠衣服、整理餐桌、吃饭、扫码收银员。...


智源甚至为机器人安排了“一对一教学”,数据采集者控制机器人完成抓、握、放等操作,让机器人更准确地模仿学习。每次完成一个动作,就相当于收集了一个数据,智源进一步训练了机器人模型,这也是GO-1推出的基础。


2024年底,智元将开放数据源,这是AgiBot。 World(智源世界)汇集了数百万真实机器人数据,复制了五个核心场景:家居、餐饮、工业、超市和办公室。有业内人士认为,这样不仅可以降低培训成本,还可以非常有利于行业统一标准,减少反复忙碌。


开源是一种思维方式,但并不意味着机器人企业会选择开源,宇树机器人一直保持着无法开源的发展战略,现已成为全球机器人生产企业的顶流。


归根结底,核心问题在于机器人能否满足人们的要求。一个关注智能赛道的人告诉DoNew,在投入实际训练后,有必要判断数据集的推广效果。


“人形机器人本质上是要面对各种场景,最好什么都能做。当某个场景发生变化时,机器人还能准确判断吗?比如续水,换个场景怎么抓?背后可能需要几万甚至上亿的数据。这个条件在未来5到10年内不能满足,现在很难说。”


03.好东西能否支撑未来?


智元机器人之所以受到业界的高度关注,一个主要原因是创始人,CTO、首席架构师「稚晖君」彭志辉。


在哔哩哔哩,彭志辉是“年度百强UP主”,还是华为的“超级天才”,受到任正非的好评。


到2022年12月,他正式宣布离开华为,追寻自己的梦想和热爱事业,"如果程序员是数字世界的上帝,那么亲自给机器人一个身材,然后用AI赋予他的灵魂,这才是真正的浪漫!"


2023年,彭志辉成立了智源机器人,从概念到量产只用了18个月就完成了技术飞跃。截至2025年3月,智源机器人已完成至少8轮融资(A轮),在临港新区发布了5款人形机器人和1000多款商品量产。


智元机器人再一次将具身智能推向台前,但也引起了相关的思考。


首先,大模型真的能完美赋能机器人吗?智源官方表示,“对于机器人公司来说,如果不做大模型,那就是一个没有未来的机器人。”


但是另一家头部公司不这么认为。去年8月,宇树科技创始人王兴兴告诉媒体,智能大模型的研发太贵了,技术路线还没有大语言模型清晰,宇树科技选择谨慎投资。


现在的问题是,大预言模型还没有处理好。「幻觉」问,机器人又缺乏高质量的数据,能不能做到零失误?


据相关报道,许多机器人制造商在演示中展示了一个动作,这足够酷,但他们实际上经历了一天的拍摄。在2024年的机器人大会上,许多机器人在展出时出现了bug、错误的问题。比如完成一个只需要移动20厘米的抓取动作,需要近40秒,或者把炒好的菜倒在桌子上。



然后就是商业化问题。落地能力是判断一个机器人公司是否可靠的重要指标。智源机器人的商业模式只是初步验证,对于规模扩张、市场份额抢占等前景并不明显。


隐私安全更加重视,GO-1中所谓的人类视频学习功能涉及大量非授权数据收集。虽然智元承诺模糊人脸和敏感信息,但如何界定“合理使用”的界限仍然是一个法律空白。


尾声


从DeepSeek霸屏,到Manus突袭,再到大型机器人模型,2025开始不到3个月,每个人都被创始人「激进」脚步一次又一次地震撼。我们暂时问一个关于智元“好东西”落地的具体可能性,但有一点可以肯定:AI很快就会帮助人类做大事。


本文来自微信微信官方账号“DoNews”(ID:ilovedonews),作家:雁秋,编辑:李信马,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com