学校机器人(下):她们都说我今年要行了…我,好吗…

04-22 09:26

或许你最近几个月不止一次看到类似的消息:2025 年度将成为人形机器人量产的第一年。


这个…可以信吗?



最近,的确有多家机器人制造商公布了。 2025 年度量产计划:


计划生产特斯拉 1 万台 Optimus;Figure AI 预计未来 4 年将量产 10 万台;1X 估计量产数千台 NEO 机器人;国内智元、宇树、优必选也声称正在积极推进量产。


因为前两篇文章中提到的那些难题如此密集,这样的25年新年计划是否过于乐观?不要每年都和我在一起。 Year Resolution啊...



要么烧钱,要么烧脑


上述两种常见的机器人数据收集方式,即在现实世界/模拟世界中进行实践,并收集相关数据。



其中,真正的机器训练一直是一条“艰难而正确的道路”,需要大量的“钞票能力”。现在看来,很有可能还是需要“大力创造奇迹”——比如中国和地方政府亲自支持。


目前,北京和上海由工业和信息化部和当地政府联合建设智能数据采集场,并率先制定了一系列数据标准。2025 年 4 月份,北京还将举办世界人形机器人运动会和半程马拉松比赛。


深圳市政府紧随其后。3月3日,深圳连续发布三篇关于人工智能发展行动计划的文章,其中两篇重点提到“具体智能”,包括“构建跨本身多样性开源数据集”、“在宝安、龙华等地建设智能数据采集基地”、与数据收集直接相关的内容,如“开发真机数据收集平台和数据模拟平台”。


广东省的做法看上去更“简单直接”——赚钱!依据广东省政府 3 月 10 号码发布的文件,可以获得国家重点项目。 1 支持1亿元;建立人工智能和机器人制造创新中心,最高可获得 5000 支持万元;对机器人开源项目给予最高支持 800 资助1万元;机器人行业标准由公司和科研院所主导,最高可给予。 50 万元资助…


当然,在模拟环境中训练的性价比远高于烧钱建造真机训练场。各大科技公司也在煞费苦心地探索如何为机器人构建一个更完美的“赛博世界”——也就是原因 AI 产生的世界模型。


赛亚人不仅有自己的精神时间屋,还有机器人在模拟平台上训练一天(对于一些情况和特定数据),可能相当于现实世界的180天效果。上海人工智能实验室的科学家表示,计算人力和机器成本,可能需要十几元才能获得一个真实的机器数据,而一个模拟数据只需要两分钱。



当前,英伟达是世界模型中最大的明星。 Cosmos。人形机器人制造商根据英伟达自己的信息 1X、Agility Robotics、Figure AI 等待已经使用了这个平台,小鹏汽车也将使用它来加速人形机器人的研发。


除了人形机器人之外,Uber 正在应用 Cosmos 研究自动驾驶;埃森哲和凯傲软件也是基于 Cosmos 为了训练仓储机器人,完成了仓库物理信息的数字化。


谷歌 DeepMind 同时,团队也在下注“世界模型”。DeepMind 在 2024 年 12 月发布了 3D 世界模型 Genie2,能模拟物理世界的效果,如重力、烟雾、水流、灯光等,产生一分钟的“一致”世界。Genie2 与现有的具体智能项目相结合,为其提供模拟训练环境,有望应用于谷歌自主研发的机械臂。 ALOHA、自动驾驶 Waymo 以及谷歌投入的人形机器人 Apptronik 上。


也有一些企业和团队致力于多模态世界模式,比如李飞飞带领的。 World Labs,还有中国企业,如字节跳动、昆仑万维等。这些模型也可以根据简单的文本或图片描述生成一个段落 360° 可交互式视频,但目前主要应用于游戏、动画等领域,尚未发布具体智能应用案例。


好消息!有望解决机器人泛化问题。


最大的想象空间就是具身智能, AI 最终能够赋予机器人行为多大程度?



限制人形机器人大规模应用的门槛之一是泛化能力普遍不足。机器人需要数千甚至数万条数据来支持一个复杂的动作,一旦操作环境发生变化——例如,当需要抓取的物体形状和材料发生变化时,机器人可能不得不“从零开始”。


但 AI 发展带来了转机,机器人有望通过较小的数据集实现对物理控制的泛化理解。


2月20日,Figure AI 一般人形机器人的动作模型已经发布。 Helix。借助于这种模式,机器人可以根据自然语言提醒拿起几乎任何一种小型家居物品——包括它从未见过的物品。


Helix 也可以直接将丰富的语义知识与机器人动作相对应。比如机器人在听到“捡沙漠物品”的指令时,可以识别桌子上的物品仙人掌,完成“抓取”的准确动作。这一转换能力的提高和 Helix 并且结合了快思(System1)和慢思(System2)两个系统。简而言之,机器人可以通过缓慢的思考来完成推理,产生准确的判断,并通过快速的思考来实现和调整动作。



Helix 它的创新优势也在于它只使用它。 500 小时高质量的监管数据进行培训,信息量不足前 VLA(视觉-语言-动作)模型为5%,无需对特定任务进行微调。而且也是第一个可以同时运行在两个机器人上的动作模型,完成了机器人之间的无缝合作。


现在,配置了 Helix 的 Figure 机器人可以在各种容器中拾取和放置物品,操作抽屉和冰箱,与另一个机器人连接,并操作数千个全新的物体。


同时,中国制造商的机器人产品也取得了类似的效果。三月十日,智元机器人发布了GO-1具底座大模型。GO-1 基于 VLA ViLLA模型提出了创新。(Vision-Language-Latent-Action)架构。按照智元机器人的解释,这个结构的底层逻辑就是“数字金字塔”的概念。以学习打乒乓球为例。首先,在互联网的海量数据中,我们理论上学习了什么是上旋球和下旋球。然后有针对性地观看世界冠军的视频来学习动作模式;然后通过发球机(Switch 上面的乒乓球互动游戏可能也可以)来模拟练习;最后,教练手把手教学——按照这个逻辑,机器人可以学习人类的行为。



GO-1 最大的价值也是让机器人通过小样本甚至零样本来泛化,训练数据集可以比过去减少1-2个量级。此外,GO-1 结合互联网数据和真实的人类教学数据,可以增强模型的感知、理解和操作技能,适应不同的机器人形式,实现“一脑多形”的跨自我应用。


几乎在同一时间,Google DeepMind 还发布了两个机器人模型——Gemini Robotics 和 Gemini Robotics-ER。


前者是“高级VLA”模型,也增强了机器人的泛化理解能力,比如让从未见过篮球的机械臂知道什么是“暴扣”,如何完成;后者 ER 代表“具体推理”(embodied reasoning)“试图模仿一种人类行为——基于对物理世界的直觉理解,猜测与一个新物体的互动模式——但它是一种机器人行为模式。举例来说,人们看到一杯热咖啡,也许会下意识地抓住摇杆,但是对于机器人来说,全面地握住水杯是更可靠的反应。


如果没有自研推理模型怎么办?也可以尝试访问开源。 DeepSeek-R1。



优秀必选机器人于2月宣布接入该模型,初步检测数据显示机器人的“零样本推理能力”有所提高。然而,在实际应用之前,需要经过足够的真实场景进行训练和优化。


马斯克认为,到了 2040 全球人形机器人的数量将达到全球 100 亿台-截至 2024 年底,人形机器人的销量可能刚刚达到1万台。中间有一个“障碍” gap,还有待各厂商的突破。


也许,真的是从今年开始的。


到 2040 2008年我们走着看。不要吃东西,好好睡觉,好好锻炼,保持健康,可不要让机器人嘲笑啊。



本文来源于微信微信官方账号“果核”(ID:作者:冰点,编辑:卧虫,36氪经授权发布,Guokr42)。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com