人形机器人的梦想和现实
李开复曾经提到过AI界流传的“骗子又来了曲线”。人们会不断地识别机器是否具有人类智能,而这个过程总是从被人工智能在某些领域的惊人表现所震撼,逐渐意识到当时的人工智能和各种局限性,导致巨大的心理落差。
最近,在WAIC世界人工智能大会上,人类服务机器人密集亮相。我们在现场感受到的是“人类要毁灭了”和“骗子又来了”,两种声音同时存在的复杂现象。
具体来说,大部分认为“人类要毁灭了”的普通观众都是无意识的,而大部分理性甚至不看好人形机器人的都是AI。、业内人士在机器人领域。
比如猎豹移动董事长兼CEO、猎户星空董事长傅盛说:“今年展厅爆发了机器人,但在日常生活中,我们没有看到它在哪里被大规模使用。机器人行业的爆发还远远没有到来...如果你不喜欢人形机器人,你会被时间证明。”。
这两种心态,究竟哪一种代表了人形机器人行业的真相?
事实上,没有真相。不同的态度是由不同的判断标准产生的。公众、从业者和技术专家都有一个“我心中的人形机器人”评分表,评价规模不同。
至于人形机器人的预期,大众的预期、媒体的宣传、行业的实际进步,在人形、大模型、具体三个标准上都有很大的差异。这就形成了人形机器人目前的梦想和现实。
01 梦想与现实的“变形金刚”
"她们怎么不动啊,不表演有什么必要插电源?"
"通电是美丽的。"
今年WAIC最引人注目的是中央展厅的“十八金钢”。18个人形机器人站在同一个领域,几乎每个观众都聚集在展台前打卡拍照。在展台旁边,我听到了这段对话。
在大众的理想情况下,人形机器人就像变形金刚和机甲战士一样,行走稳定快捷,行动灵活,随意移动。无论是在工厂工作、照顾老人还是交付包裹,他们都会用手捏。
然而,在工业现实中,WAIC上的人形机器人大部分时间都呆在展台上,在特定的时间表演一些手部动作,比如拿苹果和杯子。特斯拉的机器人甚至一直呆在玻璃陈列柜里。与整个游荡的机器狗相比,人形机器人要“内向”得多。
由此可以看出,到底是否需要“双脚行走”,已经成为当今公众和从业者对人形机器人最大的认知差异。
一般而言,双足人形机器人是“机器人皇冠”,是大众所期待的最终方向,是“变形金刚”。
但是至少要走三步:双脚行走,执行复杂的任务,大规模的商业用途。
而且现在,仅仅是“双脚行走”的第一步,在技术和商业上并非最佳状态。
另一方面,行走稳定,需要系统具有极高的鲁棒性。
当面对各种异常现象和输入时,机器人仍然可以通过运动控制模块快速调整姿势,保持正常运行。
为了提高系统的鲁棒性(或稳定性),依靠机器人与人类、物理世界的真实互动来积累高质量的数据。如果遇到训练环境中从未出现过的问题,机器人可能会出现异常或“卡住”,系统研发效率相对较低。
另外,“双脚行走”在商业上也并非刚需。
比如特斯拉、Figure等都宣布要让人形机器人“进厂打工”,从事电池分拣等工作。可以实际上,80%以上的生产工作动作,其实很少使用下肢,使用身体,主要依靠手来实现。这种简单的上臂系统可以降低控制难度和投资成本,更容易大规模生产,因为它只需要复制最重要的功能(手部)。四肢、身体一旦加起来,控制难度、续航、成本都会大大提高。
因此,目前可以大规模应用的机器人形式都是单一简单的形式,如机器狗和机械手。满足大众期待的“变形金刚”,要经过很多步骤才能带来很大的产业效应。
在这些年里,我们应该更多地看到展台和展柜中的人形机器人,而不是零距离互动。
02 梦想和现实的大模型
一位计算领域的从业者对我说:“现场机器人太多了,我觉得主题有点跑偏了。
在人工智能大会上,服务机器人蓬勃发展,基本逻辑是——大型模型为具体智能打开了一个新的解决方案。。
传统的人工智能系统,由于缺乏先验知识,缺乏理解和泛化能力,机器人很难像人类一样有基本的常识判断能力,严重制约了高水平智能的发展。当机器人执行任务时,人类工程师通常需要将复杂的指令拆解成一系列简化、程序化的步骤,然后由机器人(如机械臂)逐一执行。很明显,这一“智能化水平”并不高,还需要人们进行大量的代码和开发工作。

理想情况下,大模型会给人形机器人带来“智能水平”的颠覆性变化。
与传统的机器学习方法相比,大型模型具有更强的泛化能力,可以为人形机器人提供复杂的任务分析、流畅的连续对话、零样本推理等大量任务,提供全新的解决方案。
比如告诉人形机器人“我饿了”,它会自动分析这句话背后的需求,拆解成可执行的具体动作。通过观察物理环境,它会从冰箱里拿出一个苹果给你吃,没有人需要拆分指令。
但是现实中,大模型带给人形机器人的变化,仍然停留在初级的“自然语言交互”。
目前,大多数人形机器人都有ChatGPT的“嘴”。虽然这种组合可以提供更自然、更生动的互动体验,但它只升级了现有的语音互动,并不是“端到端”任务执行能力的颠覆性突破。
不需要人工参与的高度自动化,为什么有了大模型也不能快速实现?
从根本上说,机器人是一门非常复杂的学科,涉及精密机械、自动控制、电子和计算科学,最终呈现出非常复杂的智能机电一体化系统。
从监管机器学习到大语言模型,是计算领域的技术突破,可以在交互、规划、决策等方面发挥作用。然而,从机械化到高度自动化,人形机器人的再进化也需要技术、驱动和传动技术、万兆网络等技术资源的支持。
03 国产机器人崛起的梦想和现实
“美国公司负责忽悠概念,中国公司负责让机器人落地、商业化,降低价格,让每个人都能实现机器人自由。”
在这次WAIC大会上,国产人形机器人的表现确实比海外公司亮很多。无论是特斯拉还是谷歌,机器人展示都很无聊。国产人形机器人不仅批量大规模出现,而且在烹饪机器人、电信机器人、家政陪伴机器人等很多具体场景中展现出商业能力。
所以,这是否意味着国产人形机器人制造商将迅速崛起?
当然,我们希望这一天能够尽快实现,但是现实仍然存在不确定性。
数据方面,特斯拉、谷歌等科技巨头在自动驾驶领域积累了多年。他们可以给模型喂足空间数据,处理复杂空间中人形机器人的学习问题,从而更好地迭代学习。然而,在WAIC现场,我们看到的国内大多数人形机器人制造商的业务仍然相对独立。数据积累广泛的AI公司,如百度和商汤,更注重汽车服务机器人。也就是说,处理人形机器人的数据问题,也依赖于生态化、产业化、多方共创的解决方案。
算法方面,GPT-4o能力的国产多模式模型依然稀缺,使得人形机器人通过视觉、音频等多维数据识别地图和复杂场景的能力受到极大的限制。当前,海外产学界已在多模态大模型上系统使力。例如,基于GPT-4o的OpenAI是Figure 01建立了一个具体智能AI模型,谷歌推出了PaLMM多模态具体视觉语言模型-E。加州大学伯克利分校推出LM Nav,从而实现硬件本身、运动脑、决策脑三个部分的逐步结合。现在看来,国产基础大模型还有一段路要追。
发展国内人形机器人产业是一条艰难而正确的道路。在这条路上,我们既不想“骗子又来了”,也不想“人类被毁灭了”。历史告诉我们,在技术发展中,我们将经历五个阶段:上升、巅峰、低谷、上升和稳定。
为了避免跌入低谷,稳步发展,人形机器人行业必须在梦想和现实中不断校准自己的坐标,在每个发展阶段都实现实用价值。
本文来自微信微信官方账号“脑极体”(ID:作者:藏狐,36氪经授权发布,unity007)。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




