学校机器人(上):我们等待的机器人,它的未来有多远?

04-22 09:25

现在是2025年,我们还在为晚会上转手帕的机器人欢呼。回想小时候看过的科普书里的预言,为什么觉得自己早就应该有阿童木了?



从后空翻,转手帕,到上台表演小品,需要多长时间?再到像阿童木一样?即使机器人帮忙拖地、遛狗、叠衣服、做饭,似乎也离我们很远...


这里到底有什么难处?为何我们也的确值得为“转手帕”这样的“花活”而骄傲欢呼?


和大型模型一样,一切都与数据有关。


经过各种科幻作品的长期想象,真正的人形机器人早在半个世纪前就有了原型。例如,日本早稻田大学于1973年开发了Wabot-1,拥有人们的双手、双脚、视觉和听觉,但无法完成任何复杂的操作。从那以后,人形机器人学会了弹钢琴、跳舞和面部情绪,但从“自动化”到“智能化”的质量从未有过飞跃。



幸运的是,深度学习和AI模型来了,“具身智能”这一概念开始受到学术界和工业界的高度关注。按照中国计算机学会的概念,具身智能(Embodied Artificial Intelligence, EAI)它是指一种基于物理身体的智能系统,通过智能身体与环境的交互获取信息、理解问题、做出决定和行动,从而产生智能行为和适应性。


具体智能的呈现形式包括人形机器人、四足机器人(俗称“机器狗”)、轮式机器人、仿生机器人等,甚至包括智能驾驶。



以及目前流行的Deepseek、不同于ChatGPT等产品,具体智能存在着“物理实体”与环境的交互,需要了解现实世界才能做出判断和行动。


以 AI 当我们与人形机器人进行比较时,聊天工具 AI 对话时,AI 需要处理的信息包括语言、声音、图像、视频等。当我们与人形机器人互动时,他们需要处理的是如何识别物体,如何识别方向,如何规划运动轨迹。此外,我们需要判断我们是应该举起手还是伸出腿,是应该伸出手指还是应该伸出手掌,从什么角度展示我们的力量...


对于人类来说,这些完全“不需要思考”的问题,都是机器人需要从零开始学习的东西。



和 AI 同样,机器人的学习过程也是从数据采集和处理开始的。但是比例 AI 更复杂的是,机器人需要获得更多的数据维度,如图像、空间等感知数据、关节视角、速度等运动数据、力反馈、扭矩等机械数据、温度、光照等环境数据,以及任务执行结果和性能数据等。


这些来自真实物理世界的数据比来自互联网世界的数据更难生成和收集。因此,目前可用于智能使用的数据集要小得多。


根据对冲基金Coatue的相关数据,只有机器人数据 2.4M,远低于有15T 文本数据集,Tokens。《具体智能发展报告》由中国信通院联合发布。 (2024年)中还提到,缺乏数据已经成为具体智能能力突破的重要堡垒。一方面,真实数据面临着高成本的考验;另一方面,模拟生成数据面临着模拟环境与现实世界的区别——即模拟生成数据之间的“真实差距”。


以下是具体智能数据采集的两种主要方法:真实世界数据收集,模拟世界数据收集


收集真实世界数据


数据收集在现实世界中的方法有:人类动作捕捉和人类遥操作。


每个人都应该对动作捕捉有更好的了解,比如平时看的虚拟主播,电影中的阿凡达和金刚,黑神话悟空游戏中的人物...都是通过真人动作捕捉来模拟的。


类似地,真人动作捕捉也可用于机器人训练。



目前,动作捕捉一般采用光学和惯性两种模式。光学捕捉是通过红外摄像头提前在身体动作捕捉服上标记多个点并恢复轨迹和动作;惯性捕捉是通过惯性传感器(陀螺仪、加速度计、磁力计等)来计算身体的动作和姿势,最终形成数据记录。


光学捕获的优点是精度高,可以捕捉到面部情绪、手指动作等微小而复杂的变化,但对场地布局和光源照明的要求更高;虽然惯性捕获精度有限,但可以直接获得动力学参数,不受场地限制,因此受到许多人形机器人制造商的青睐。


捕获运动信号后,动作捕获系统将数据传输到处理设备,然后通过一系列算法恢复3D空间中的位置坐标和运动轨迹,最后生成可供机器人使用或分析的数据。根据宇树机器人发布的信息,春晚手帕的H1机器人通过一套新开发的动作捕获程序,直接将人类跳舞时的动作数据映射到机器人本体上进行练习。



然而,人类的动作轨迹与机器人并不完全一致,适应问题仍然可能发生。数据收集的准确性和可靠性可以通过人类遥操作进一步提高。


人类遥操作是指人类操作人员对机器人进行远程操作,并记录机器人的真实数据。与动作捕捉的区别在于,它最终收集了真实的机器数据,消除了“具体差距”(Embodiment Gap)”,即机器人与真人的差距。


目前,特斯拉人形机器人 Optimus 即采集机器人视觉识别、运动控制和其他传感信息,通过人类穿戴动捕设备、遥控机器人实现目标。


许多制造商和服务提供商专门建立了机器人训练场,以便为机器人提供更好的数据收集环境。


训练场有很多真实的场景,比如厨房、客厅、卧室、超市、茶叶店,甚至户外场景。在这些环境下,人类控制机器人操作,如打开柜门、铺床单、冲咖啡、从货架上取放等。机器人可以通过重复几次来学习这个动作。



显然,这种收集真机的方式可以获得最高质量的训练数据,但同时也需要大量的建设成本和人工成本,只有“财大气粗”的玩家才能实现。


特斯拉拉(特斯拉拉)根据国家和地方共建人形机器人创新中心的数据负责人估计, Optimus 在特斯拉工厂完全准备工作至少需要几百万个小时的数据,在此期间可能至少需要。 5 数据采集成本为亿美元。


模拟世界数据收集


有一种方法可以显著降低数据生产和采集的成本,那就是让机器人在类似机器人的“模拟生活”中学习和成长,最终发展自己的智慧——虽然这是最后一点,但目前仍然是一种奢侈。


机器人模拟平台可以模拟虚拟环境中实体机器人的行为和性能,不仅包括模拟机器人传感器数据,还包括模拟天气、地形和环境,以及检测和验证机器人控制算法。


模拟世界部分解决了机器人“泛化能力”的一个重要问题。



例如,在过去,机器人训练机器人在真实的咖啡馆环境中捕捉指定物体的能力。机器人很可能会改变咖啡馆、同样的物体、桌面材料甚至窗外的天气,所以机器人无法完成同样的动作——因为它的泛化性有限,无法根据现有的知识在不同的场景中转移。这需要在另一个场景中再次训练,成本增加了。


而且模拟平台可以在数字世界中,基于模拟物品和场景产生无限变化的环境,同时符合物理正确。同样可以模拟机器人的行为,例如机器人手抓取物体的位置和姿势。在此基础上生成抓取行为的轨迹算法,并将其转移到物理世界进行实际操作和验证。就这样完成了一个 Real2Sim2Real(Reality 和 Simulation)完整的过程。


但 Sim-to-Real Gap(模拟与现实的差距) 仍是一个需要解决的问题,目前已有多种算法试图减少这种影响。


然而,要说信息量最大,成本最低的信息来源,仍然是大量的因特网数据。


理论上,在视频网站上分享的人类行为视频也可以成为机器人学习的“数据库”。但是这部分数据的“噪音”太大,随机性很强,不是机器人训练的具体场景,也很难直接用来训练机器人,没有结构化的处理和标注。



但仍有科研机构在这方面做出了努力,认为可以通过互联网上大规模的人类操作视频进行“预训练”,然后用少量的机器人信息进行“微调”——谁能让互联网数据充分控制?


未来,也许互联网数据可以与模拟数据和真机数据结合使用,真正为智能提供数据的“宝库”。数据收集的方式也会有所突破。有人认为,“脑机接口”将成为未来机器人信息的重要来源,人类可以通过大脑信号直接控制机器人进行操作。


总之,从 AI 从大模型到全身服务机器人,就像从玩贪蛇到漫游魔兽世界。有了物理实体,“智能体”需要学习更多的东西,但探索的空间变得更大。


接下来的一系列文章,我们将继续讲述一些真实而有趣的机器人训练案例。



本文来自微信微信官方账号“果核”,作者:冰点,编辑:卧虫,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com