人形机器人的梦想和现实

2024-07-12

李开复曾经提到过AI界流传的“骗子又来了曲线”。人们会不断地识别机器是否具有人类智能，而这个过程总是从被人工智能在某些领域的惊人表现所震撼，逐渐意识到当时的人工智能和各种局限性，导致巨大的心理落差。

最近，在WAIC世界人工智能大会上，人类服务机器人密集亮相。我们在现场感受到的是“人类要毁灭了”和“骗子又来了”，两种声音同时存在的复杂现象。

具体来说，大部分认为“人类要毁灭了”的普通观众都是无意识的，而大部分理性甚至不看好人形机器人的都是AI。、业内人士在机器人领域。

比如猎豹移动董事长兼CEO、猎户星空董事长傅盛说:“今年展厅爆发了机器人，但在日常生活中，我们没有看到它在哪里被大规模使用。机器人行业的爆发还远远没有到来...如果你不喜欢人形机器人，你会被时间证明。”。

这两种心态，究竟哪一种代表了人形机器人行业的真相？

事实上，没有真相。不同的态度是由不同的判断标准产生的。公众、从业者和技术专家都有一个“我心中的人形机器人”评分表，评价规模不同。

至于人形机器人的预期，大众的预期、媒体的宣传、行业的实际进步，在人形、大模型、具体三个标准上都有很大的差异。这就形成了人形机器人目前的梦想和现实。

01 梦想与现实的“变形金刚”

"她们怎么不动啊，不表演有什么必要插电源？"

"通电是美丽的。"

今年WAIC最引人注目的是中央展厅的“十八金钢”。18个人形机器人站在同一个领域，几乎每个观众都聚集在展台前打卡拍照。在展台旁边，我听到了这段对话。

在大众的理想情况下，人形机器人就像变形金刚和机甲战士一样，行走稳定快捷，行动灵活，随意移动。无论是在工厂工作、照顾老人还是交付包裹，他们都会用手捏。

然而，在工业现实中，WAIC上的人形机器人大部分时间都呆在展台上，在特定的时间表演一些手部动作，比如拿苹果和杯子。特斯拉的机器人甚至一直呆在玻璃陈列柜里。与整个游荡的机器狗相比，人形机器人要“内向”得多。

由此可以看出，到底是否需要“双脚行走”，已经成为当今公众和从业者对人形机器人最大的认知差异。

一般而言，双足人形机器人是“机器人皇冠”，是大众所期待的最终方向，是“变形金刚”。

但是至少要走三步：双脚行走，执行复杂的任务，大规模的商业用途。

而且现在，仅仅是“双脚行走”的第一步，在技术和商业上并非最佳状态。

另一方面，行走稳定，需要系统具有极高的鲁棒性。

当面对各种异常现象和输入时，机器人仍然可以通过运动控制模块快速调整姿势，保持正常运行。

为了提高系统的鲁棒性(或稳定性)，依靠机器人与人类、物理世界的真实互动来积累高质量的数据。如果遇到训练环境中从未出现过的问题，机器人可能会出现异常或“卡住”，系统研发效率相对较低。

另外，“双脚行走”在商业上也并非刚需。

比如特斯拉、Figure等都宣布要让人形机器人“进厂打工”，从事电池分拣等工作。可以实际上，80%以上的生产工作动作，其实很少使用下肢，使用身体，主要依靠手来实现。这种简单的上臂系统可以降低控制难度和投资成本，更容易大规模生产，因为它只需要复制最重要的功能(手部)。四肢、身体一旦加起来，控制难度、续航、成本都会大大提高。

因此，目前可以大规模应用的机器人形式都是单一简单的形式，如机器狗和机械手。满足大众期待的“变形金刚”，要经过很多步骤才能带来很大的产业效应。

在这些年里，我们应该更多地看到展台和展柜中的人形机器人，而不是零距离互动。

02 梦想和现实的大模型

一位计算领域的从业者对我说：“现场机器人太多了，我觉得主题有点跑偏了。

在人工智能大会上，服务机器人蓬勃发展，基本逻辑是——大型模型为具体智能打开了一个新的解决方案。。

传统的人工智能系统，由于缺乏先验知识，缺乏理解和泛化能力，机器人很难像人类一样有基本的常识判断能力，严重制约了高水平智能的发展。当机器人执行任务时，人类工程师通常需要将复杂的指令拆解成一系列简化、程序化的步骤，然后由机器人(如机械臂)逐一执行。很明显，这一“智能化水平”并不高，还需要人们进行大量的代码和开发工作。

理想情况下，大模型会给人形机器人带来“智能水平”的颠覆性变化。

与传统的机器学习方法相比，大型模型具有更强的泛化能力，可以为人形机器人提供复杂的任务分析、流畅的连续对话、零样本推理等大量任务，提供全新的解决方案。

比如告诉人形机器人“我饿了”，它会自动分析这句话背后的需求，拆解成可执行的具体动作。通过观察物理环境，它会从冰箱里拿出一个苹果给你吃，没有人需要拆分指令。

但是现实中，大模型带给人形机器人的变化，仍然停留在初级的“自然语言交互”。

目前，大多数人形机器人都有ChatGPT的“嘴”。虽然这种组合可以提供更自然、更生动的互动体验，但它只升级了现有的语音互动，并不是“端到端”任务执行能力的颠覆性突破。

不需要人工参与的高度自动化，为什么有了大模型也不能快速实现？

从根本上说，机器人是一门非常复杂的学科，涉及精密机械、自动控制、电子和计算科学，最终呈现出非常复杂的智能机电一体化系统。

从监管机器学习到大语言模型，是计算领域的技术突破，可以在交互、规划、决策等方面发挥作用。然而，从机械化到高度自动化，人形机器人的再进化也需要技术、驱动和传动技术、万兆网络等技术资源的支持。

03 国产机器人崛起的梦想和现实

“美国公司负责忽悠概念，中国公司负责让机器人落地、商业化，降低价格，让每个人都能实现机器人自由。”

在这次WAIC大会上，国产人形机器人的表现确实比海外公司亮很多。无论是特斯拉还是谷歌，机器人展示都很无聊。国产人形机器人不仅批量大规模出现，而且在烹饪机器人、电信机器人、家政陪伴机器人等很多具体场景中展现出商业能力。

所以，这是否意味着国产人形机器人制造商将迅速崛起？

当然，我们希望这一天能够尽快实现，但是现实仍然存在不确定性。

数据方面，特斯拉、谷歌等科技巨头在自动驾驶领域积累了多年。他们可以给模型喂足空间数据，处理复杂空间中人形机器人的学习问题，从而更好地迭代学习。然而，在WAIC现场，我们看到的国内大多数人形机器人制造商的业务仍然相对独立。数据积累广泛的AI公司，如百度和商汤，更注重汽车服务机器人。也就是说，处理人形机器人的数据问题，也依赖于生态化、产业化、多方共创的解决方案。

算法方面，GPT-4o能力的国产多模式模型依然稀缺，使得人形机器人通过视觉、音频等多维数据识别地图和复杂场景的能力受到极大的限制。当前，海外产学界已在多模态大模型上系统使力。例如，基于GPT-4o的OpenAI是Figure 01建立了一个具体智能AI模型，谷歌推出了PaLMM多模态具体视觉语言模型-E。加州大学伯克利分校推出LM Nav，从而实现硬件本身、运动脑、决策脑三个部分的逐步结合。现在看来，国产基础大模型还有一段路要追。

发展国内人形机器人产业是一条艰难而正确的道路。在这条路上，我们既不想“骗子又来了”，也不想“人类被毁灭了”。历史告诉我们，在技术发展中，我们将经历五个阶段:上升、巅峰、低谷、上升和稳定。

为了避免跌入低谷，稳步发展，人形机器人行业必须在梦想和现实中不断校准自己的坐标，在每个发展阶段都实现实用价值。

本文来自微信微信官方账号“脑极体”（ID:作者：藏狐，36氪经授权发布，unity007)。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

8000家汽车4S店关门后：燃油车价格全面崩溃

我在美国学习电影，但是拍短剧

弯腰捡钱？“拖拉机”账户爆红，投资者排队开通，行业紧急提示风险。

今年博览会上的智能家居:走向整个房子的灯光，跑道越来越拥挤。

OpenAI「突拔网线」，国内大厂笑疯了，泼天流量来了，微软急伸橄榄叶

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂