具体智能“奇点”即将到来,商业化落地还有多少门槛?
世界上第一个包括人形机器人在内的角色Maria诞生于1927年上映的《大都会》。
60多年后,人形机器人从电影走向现实。2000年,本田的ASIMO成为世界上最著名的人形机器人之一,它可以行走、跑步甚至相应地交流。如今,人形机器人的浪潮正在全面席卷。
2024年,在模型的加持下,一个充分性感的故事正在展开:长出“大脑”的人形机器人与科幻电影中通用机器人的差距正在缩短。在今年的世界机器人大会上,27个人形机器人齐聚一堂,成为历届最高的。
作为人形机器人的核心,智能站在模型和自动驾驶的手臂上,其商业化进程比预期来得更快。故事的作者在智能领域掀起了一场神之战。

具身智能 vs 自动驾驶
对于身体智能,没有严格的官方定义。它通常指与智能身体的融合,实现与物理环境的互动,感知环境并采取行动。智能身体通过环境信息不断学习赋予智慧,这是一个交叉的系统,包括人工智能、机器人本体、认知科学和神经科学。
英国自动驾驶独角兽Wayve于2024年5月完成了10.5亿美元的C轮融资,这不仅是英国历史上最大的AI融资,也是迄今为止全球前20名的AI融资之一。值得注意的是,Wayve联合创始人兼首席执行官在完成融资当天写下了这样一句话:“具体智能注定会成为最有价值的AI应用,未来可能会改变我们与技术的互动技术。”
令人好奇的是,为什么一家自动驾驶公司要在融资当天提到具身智能,而且还非常乐观?
有人说,自动驾驶的存在取代了司机,智能的存在取代了整个人类。当然,这只是一种跟随当今互联网风格的狭隘理解。自动驾驶和智能驾驶的真正相似之处在于技术与底层逻辑的相似性。更好的理解是,2024年既然是自动驾驶的商业化元年,同样也见证了智能驾驶的“元年”。
一份关于“具体智能”的报告,由世界顶级对冲基金Coatue发布。《The Path to General-Purpose Robots》(通往通用机器人的道路),如果将具体智能阶段与自动驾驶阶段进行比较,“过去无人驾驶汽车从L1到L2大约需要20年,而且从L2到现在L4只用了不到10年的时间,那么从L1到L2的人型机器人大约用了50年,从L2到L4估计只用了不到5年的时间。”
业内人士普遍认为,人类是机器人领域形态发展的最终目标。如果对比自动驾驶的水平,就是L4是一个全智能的人类机器人。
类似于智能汽车,实现具体智能包括“感知、决策、控制”三个主要阶段,需要内外通信传输的支持。
感知是智能交互世界的窗口。首先,环境传感器和运动传感器应收集环境和自身状态信息作为决策环节的依据。其次,我们应该根据感知信息和任务目标对自己的行为做出规划和决策,并向控制模块发出指令;未来,将决策指令转化为实际操作,实现与物理世界的互动;在传输方面,强调延迟低、连接多、可持续性强。

就商业化而言,具身智能和自动驾驶的发展路线也可能具有很高的拟合性。以L2、L4区分,具有智能时代的人形机器人可以分为两种方式:一种是在L2等级下逐渐孵化衍生出来的商业产品,机器人的身体形态逐渐从轮试、脚、手臂、全身等方面发展起来;另一种是L4级玩法。公司从一开始就是人形机器人,直接解决最难的问题。通过大规模融资穿越技术发展周期。
商业化自动驾驶有三种机会:一是汽车本身,即L4自动驾驶技术的机会;二是应用领域,即L2级自动驾驶的机会;最后是供应链技术,如传感器、毫米波和智能驾驶舱。
清华大学智能产业研究院(AIR)张亚勤院长认为,无人驾驶将是未来五年最大的物理智能应用,有望成为第一个通过“新图灵测试”的具体智能系统。2025年将成为无人驾驶的“ChatGPT 2030年无人驾驶将成为主流,预计10%的新车将拥有L4级自动驾驶能力。
对于具体智能来说,机器人从局部到全身的转变过程,也会带来三种机会。
第一,机器人本体的研究与开发,如果公司有条件在初期推出人型,自然可以争夺市场先机,让后来者很难分一杯羹。
第二是场景机会,目前机器人的应用场景较少,但是这也为行业提供了探索与发展的空间。
三是行业上下游的机遇。上游包括赋能机器人的核心技术,如智能计算中心的建设、计算率芯片和终端模型;下游涉及各种传感器和关节模块,相当于机器人感官系统,包括视觉、触觉和运动感知。
显然,在具体智能中,“上难度”的人形机器人代表着需要穿越周期L4,甚至L5。
“大脑 “小脑”,大模型实现智能化。
从马斯克到知名AI学者李飞飞,从英伟达、OpenAI甚至国内大部分科技厂商,都涌入了智能跑道,对AI模型加持下的这个机器人行业持乐观态度。
今年,人形机器人行业在智能领域取得了显著突破。基于通用大模型、数据、高效计算架构、多模式融合感知等关键技术,人形机器人安装了智能“大脑”,促使人形机器人具备认知和管理能力,将人形机器人推向实用阶段。

从大模型的角度来看,从最初的大语言模型(LLM),逐步走向图像-语言模型(VLM)甚至图像-语言-动作多模式模型模型(VLA),这种转变不仅意味着机器人将拥有更丰富的信息处理能力,还意味着它们将能够跨越语言和视觉的界限,实现更复杂、更灵活的交互技术。人形机器人在这种技术背景下,正朝着具身智能的最终目标迈进。
“身体”的特点使得身体智能模型与通用大模型有显著差异。传统的身体智能研究以深度学习范式为主流,通过模仿学习或加强学习技术训练身体系统来获得技能。但传统的深度学习算法对数据集的依赖程度高,转移泛化能力弱,难以执行训练数据以外的技能。
大型模型的出现为通用人工智能提供了机会。自从谷歌Transformer神经网络结构发布以来,许多研究人员发现,基于Transformer的预训练语言模型在非语言任务中也能取得良好的效果,具有很强的泛化能力。此后,基于Transformer神经网络开发的具体多模态大语言模型等大型模型被引入具体智能领域,例如谷歌在2023年发布的PaLM-E模型。
与通用大型模型相比,具体智能大型模型需要更多地考虑粒度和广度、与环境的互动和控制的协调性。
具体智能系统不仅要能准确识别物体的类别和特性,还要将视觉信息转化为精确的空间坐标,从而实现机械臂、灵巧手等位置的精细操作和关节控制。
与此同时,除了文本、图像、音频、视频等常见的模态数据外,还需要接收触感(如力反馈、表面材料)。、为了更全面、更准确地了解环境,姿态(如空间坐标、位移距离、旋转角度)等信息。
具体的智能算法还需要了解物体的运动轨迹,事件的发展顺序,才能做出及时准确的决定。
环境交互是具体智能不同于其他具有实体机器人的重要特征。通过与环境的交互,我们可以不断学习和更新知识,从而不断提高算法性能。
当前,人形机器人制造商主要采用分层端到端的方案,即通过“大脑大模型”和“小脑大模型”相互配合来实现目标。
大多数“大脑模型”都是基于多模式的通用模型来实现任务的感知计划,然后通过API调度“大脑模型”来驱动关节硬件。
例如,WalkerWalker优选人形机器人 S访问百度文心大模型;智源机器人与科大讯飞签署合作战略协议,依托讯飞星火大模型联合开发;乐聚机器人夸父配备了华为盘古模型。
就“小脑大模型”而言,在技能应用方面,智源机器人推出了通用的位置估计模型UniPose、一系列通用原子能力模型,如通用抓取模型UniGrasp、通用力控插拔模型UniPlug等。,可以配合大语言模型框架进行任务安排,使机器人比传统合作机器人更容易安排,具有一定的泛化能力。
优必选从应用领域出发,汇集了人形机器人全栈技术,如工业场景垂域大模型技术、计算机视觉感知、语义VSLAM导航、学习型全身运动控制、多模态人机交互等。,将人形机器人引入汽车生产线的智能运输、质量检测和化学品操作,促进人形机器人在汽车工厂的大规模应用。
值得注意的是,特斯拉Optimus利用传感器和计算机视觉技术,利用海量数据不断优化训练过程,直接生成关节控制序列,使用完全端到端的神经网络模型。
在“小脑”操作大模型领域,各大厂商刚刚起步,多技术路径同步发展。大型操作模型决定了人形机器人在任务执行方面的准确性,是大型商业应用场景落地的前提。
数据已经成为最大的瓶颈
业内人士普遍认为,缺乏大规模、高质量的信息是智能发展的难题之一。由于训练机器人所需的物理数据不如文本数据大,容易获得,目前机器人的数据量远远不能满足机器人达到一般大模型的需求,因为训练机器人所需的物理数据不如文本数据大,容易获得。
目前,通过强化学习算法,一方面可以提高模型训练的效率,另一方面可以通过模拟平台生成数据,建立数据开放生态,从而解决人形机器人训练数据短缺的问题。
数据对人形机器人的训练起着非常重要的作用,它直接影响机器人的感知、思维和管理能力以及行动执行能力。当大型机器人通过大量的数据学习理解任务意图并转移到下游任务时,高质量的训练数据可以有效提高人形机器人的场景泛化能力。
在处理高质量智能数据不足的问题时,可以通过模拟环境生成数据,帮助真实世界数据丰富培训信息源,构建更大规模、更多模式的共享数据集。
使用模拟和生成数据可以降低数据采集成本,提高开发效率。生成数据的常见来源是通过大量符合现实世界物理规则的虚拟模拟场景技能和策略转移到现实世界。基于模拟环境的合成数据与真实采集数据相比,具有采集成本低、采集速度快、可扩展性强、标记准确性高的优点。
创建一个高质量的开源数据集,可以最大限度地利用数据。由于数据获取的成本高、周期长、隐私安全问题,大多数智能研究机构和企业只在特定环境下收集数据。缺乏信息共享造成无效劳动和资源浪费,形成“数据孤岛”。
DeepMind于2023年与多家科研机构合作,构建了Opend开源数据集的真实机器人 X-Embodiment,包含超过100万个轨迹片段的22个机器人,超过500个技能,超过16个任务。基于这种开源数据训练,基于RT的智能控制基础模型-X,在跨场景、多任务应用中,表现出超越以往基于特定场景和数据的技能水平。
身体智能行到爆发前夜
从1973 世界上第一个人形机器人WABOT-1在早稻田大学开发,Optimuss到特斯拉的人形机器人、Figure AI的Figure 02,机器人的移动能力、操作技能和交互能力发生了巨大变化。在过去的几年里,多模式和大模式的支持使机器人通过智能化的快速发展进入了一个新的阶段。
2023年,行业内新产品不断涌现,特斯拉,Figure AI,以及宇树、智源、傅利叶等一批国产品牌,集中在2023年推出首款人形机器人产品。银河通用、加速进化、星动时代等厂商相继成立,推动了行业新产品的生机勃勃。
到2024年,优必选,Apptronik、特斯拉、Figure AI等公司开始陆续与汽车主机厂合作,将人形机器人登陆汽车制造场景,初探商业化可能性。

然而,目前大多数具体智能公司仍处于不断迭代的Demo阶段。什么时候能更好地将产品与某个场景结合起来进行商业化,是业界关注的关键问题。
根据CICC研究院和研究部联合研究发布的《AI经济学》报告,从任务的角度来看,人形机器人的“身体”特点特别适合力量型、灵巧型、空间移动导航等体力任务,如卸料、大修、检查等。同时,其“智能体”的特点使其具有人的智力和情感,可以在教育培训指导、服务接待、人文关怀等支持性任务中发挥作用,如教育、讲解导向、养老助残等。
大多数行业都是由多种任务组成的,如果看到最后的情况,人形机器人有望在各行各业找到适合自己落地的使用场景。举例来说,服务行业前台(营业部客户接待)、矿业(物料挖掘运输)、水电热流(电力检查)、护理行业(康养护理)、设备制造业(工业制造)、医疗服务业(手术机器人)、住宿业和餐饮业(餐饮业机器人)等等,不一样。
可以说,人形机器人的渗透不会一蹴而就。随着技术的不断成熟,人形机器人不仅可以具有更自然的交互性能,还可以在交互要求更高的公共服务场景和个人家庭场景中实现应用,从而提高复杂场景的适应能力,从而在高风险、救援和多变的环境中打开渗透。总的趋势是从专用场景逐渐渗透到通用场景,从而实现整个行业各种场景的落地。
智能时代的机器人最终会有什么样的形式?归根结底,这个问题的背后是人类创造者对机器人的想象。无论你怎么想象,可预见的未来机器人可能都有类似的含义:一个在视觉、学习、决策等多维度上拥有更全面智能水平的机器人。
在硬件和智能的交互中诞生了一个新的物种。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




