具身智能的无共识:技术早期的生命力与未来趋势
在技术发展的初期,总有一些人急于寻找唯一正确的路径,期望通过一次押注就能拨开迷雾。然而,具身智能的复杂性正不断向行业发出警示:具身智能并非从单一途径发展而来,而是在无数次试错、冲突与调和的过程中被“雕琢”而成。模型不够完善、数据存在缺失、架构尚未统一,这些看似是缺陷的方面,却恰恰是具身智能最真实的生命力所在。
在技术早期,总有人试图寻找唯一正确的路线,希望通过一次性押注来穿越迷雾。但具身智能的复杂性正在提醒行业,具身智能不是从一条路径长出来,而是从无数次试错、冲突与调和中被“雕刻”出来。模型不完美,数据不完整,架构不统一,这听上去像缺陷,却恰恰是具身智能最真实的生命力所在。
不出所料,到了2025年末,具身智能依旧保持着高昂的姿态向前发展。
更在预料之中的是,具身智能领域仍然没有形成共识。
在2025智源具身OpenDay圆桌论坛上,国内顶尖的具身智能从业者们展开了一场“各抒己见的真心话”交流。无论是模型架构的选择,还是数据的运用,在这场圆桌对话中都未能达成统一的发展方向。一时间,不少人对具身智能领域仍无共识这件事感到遗憾。
但具身研习社认为,“无共识”的另一层含义是具身智能依然值得期待,技术还会在不经意间带来惊喜。毕竟,当发展方向有了明确的风向,反而会显得有些无趣。当我们不再追求“确定性”时,其实能够发现一些趋势。或许“无共识”本身就是一种共识。

从产业的角度来看,共识的缺失具有三重积极意义:
其一,无共识本质上打破了单一技术路线的垄断话语权,避免行业陷入“路径依赖”的创新陷阱。在具身智能领域,从“分层架构与端到端”的技术路线分歧,到“通用人形机器人与场景化具身智能”的落地选择,无共识的状态让不同技术理念、不同学科背景的团队获得了平等试错的空间;
其二,成熟行业的共识往往伴随着较高的准入壁垒,而具身智能的“无共识”状态,为中小企业、初创团队乃至跨界参与者提供了弯道超车的机会。新入局者无需遵循已有的技术标准或商业规则,可凭借差异化优势进入赛道。
其三,具身智能作为交叉学科领域,其技术基础仍在快速迭代,过早形成共识反而可能固化技术路径,限制行业向更高维度突破。无共识状态的核心价值,在于为技术迭代预留了“弹性空间”。
在智源具身OpenDay圆桌论坛上,关于“无共识”的讨论众多,也折射出了更多的可能性。具身研习社基于在场嘉宾的回答,洞察出具身智能的五大信号,未来的发展方向或许就隐藏在这些信号之中。
模型有待完善,部分从业者寻求新方向
信号1:世界模型暂时难以担当重任
在具身智能的模型讨论中,“热门”的世界模型是一个绕不开的话题。
它的核心价值在于“预测”。让机器人像人类一样,根据当前的时空状态预判下一步的变化,进而规划动作,这一点得到了圆桌嘉宾的普遍认可。北京大学助理教授、银河通用创始人王鹤以机器人运控为例,指出无论是人形机器人的足式行走、跳舞,还是灵巧手的精细操作,其底层控制逻辑都需要对物理交互的预测能力,而世界模型恰好能提供这种支撑,但要让世界模型真正服务于机器人,其训练数据中必须包含更多机器人本身的数据。
但世界模型的短板同样明显,难以单独成为具身智能的“万能方案”。王鹤强调,当前很多世界模型依赖人类行为视频训练,可机器人的身体结构(如轮式底盘、多自由度机械臂)与人类差异巨大,这些数据对机器人实际操作的帮助有限。加速进化创始人兼CEO程昊也提到,在做饭、复杂装配等真实场景中,世界模型的预测精度仍不足,只能先通过分层模型解决简单任务,再逐步迭代升级。
信号2:模型需“另辟蹊径”
既然现有模型难以满足需求,“打造具身专属模型”成为不少企业的共识。
清华大学交叉信息学院助理教授、星海图CTO赵行表示,具身智能需要平行于大语言模型的“Large Action Model”,这类模型要以“动作”为核心,而非语言。他解释道,人类智能的进化是“先有动作、再有视觉、最后有语言”,机器人要适应物理世界,也应该遵循类似逻辑——比如开车时,人类靠视觉观察路况、靠动作操控方向盘,语言并未参与核心操作,具身模型也应优先打通“视觉 - 动作”的闭环。
自变量创始人兼CEO王潜的观点更为具体,他认为具身智能需要一套“物理世界基础模型”,既能控制机器人动作,又能作为世界模型预测物理规律。虚拟世界的多模态模型靠文字、图片训练,但物理世界的摩擦、碰撞、力反馈等精细过程,却是无法用语言准确描述的。当一个机器人抓取鸡蛋时,它需要感知蛋壳的脆弱度、调整握力,这种对物理属性的理解,必须依赖专门针对物理世界训练的模型。
信号3:从底层架构开始革新
过去几年,Transformer架构凭借跨模态处理能力,支撑了ChatGPT等大语言模型的爆发,但在具身智能领域,它的适用性正受到质疑。招商局集团AI首席科学家张家兴是这一观点的代表,他直言“具身智能不能走LLM到VLM的老路”。
在他看来,Transformer架构是以语言为核心,将视觉、动作等模态向语言映射,这与物理世界的操作逻辑相悖——人类做动作时,视觉感知直接指导肌肉运动,无需经过语言“翻译”。他透露,硅谷头部团队已在探索“Vision First”或“Vision Action First”的新架构,让视觉和动作直接交互,减少语言中介的损耗。
王鹤也补充道,Transformer作为一个跨模态的Attention机制,是很通用的。比如你会发现它可以处理文本模态、视频模态、声音模态等。但“如今具身智能的问题在于,人类有眼、耳、口、鼻、舌等多种感知器官,虽然从Attention的角度,把这些感知器官Token化以后都能放到Transformer里,但是它在输出上似乎不是那么理想,根本挑战是数据问题以及与之对应的学习范式”。
王鹤提出,短期来看,仿真模拟与合成数据是突破探索速度的核心手段;长期来看,现实世界中人形机器人的规模必须持续快速扩张,只有足够大的“机器人人口”与能力提升相互推动,才能催生真正强大的具身大模型。
这种底层架构的不匹配,让行业意识到:要实现具身智能的突破,或许需要从架构根源上进行革新,而非在现有框架内进行修补。
数据仍是关键问题,且需求持续增长
信号4:没有完美数据,只有适配选择
“数据是具身智能的燃料”,这是圆桌论坛的共识,但“用什么数据”却没有统一答案。由于不同数据类型各有优劣,企业普遍采取“多源融合、按需选择”的策略,根据任务场景匹配最合适的数据来源。真机数据是最“保真”的选择,能直接反映真实物理世界的交互规律,因此成为精细操作场景的首选。赵行所在的星海图团队,就坚持深入真实场景采集数据,他们把真实性、质量看作真实机器人数据采集的起点。智元机器人合伙人、首席科学家罗剑岚也强调,智元机器人也坚持真实数据,并且在数据采集中坚持真实场景而非单靠数据采集工厂,摸索一条通过机器人自主产生数据,构建起数据飞轮的道路。而仿真数据则凭借“低成本、可规模化”的优势,成为底层控制训练的主力。王鹤认为,在强化学习中,很多极端场景(如机器人摔倒、机械臂过载)难以在真机上反复测试,而仿真器可以快速生成大量类似数据,帮助模型学习应对策略。在他看来,模拟器并不是对真实世界的否定,而是以模拟器为起点,它能够给具身企业一个很好的Base Controller,让我们能在真实世界里把数据飞轮转起来。
程昊的加速进化团队也采取类似策略,先用仿真数据让机器人掌握基本运控能力,再用真机数据微调适配真实场景。“我们用仿真数据训练的一个目标,是让机器人接下来能获得更多真实数据,有了真实数据,整体能力才能再提升。”在程昊看来这很可能是一个螺旋上升的过程。
视频数据则成为基座模型训练的重要补充。智源研究院院长王仲远认为“视频数据训练基座模型”这一套逻辑其实跟现在小朋友刷手机来认识世界是一个原理——先通过视频学习到这个世界,再通过真实的交互体验来提升他们的技能。这些视频数据包含时空、因果、意图等多维度信息,且能大规模获取,是当前缺乏海量真机数据时的“折中最优解”。但在具身研习社追问“从视频中学习如何解决触觉跟力控精细化数据?”时,王仲远也承认,视频中确实缺乏力反馈、触觉等信息,但这并不影响其价值。现在智源研究院具身智能实验室里也备有带力反馈数据的采集设备。视频数据更多用于“打基础”,还需结合其他数据做针对性优化、微调。
信号5:“数量”“质量”“种类”,具身企业全方位需求数据
随着具身智能向复杂场景渗透,行业对数据的需求正不断升级,不仅“量”要大,“质”要高,“种类”也要更丰富,形成了越来越大的“数据胃口”。
首先是对“量”的渴求,“互联网级别”数据成为行业共同的期待。如赵行认为,数据的规模化,能够反向驱动模型的进化和智能的实现。王仲远也表示“更好的具身大模型,可能要等大量机器人在真实场景中解决具体问题、累积出‘具身智能互联网’级别的数据之后,才会出现”。换句话说,没有足够的数据,模型就像没吃饱的孩子,跑不快也长不壮。
当业内为Generalist构建的27万小时真机数据集,疑似触碰到所谓规模化法则而欢呼时,王仲远对具身研习社坦言,“几十万小时的数据依然不能叫海量数据,还远没到ChatGPT时刻”。

在“量”之外,是对“质”的追求,“高质量数据比海量低质数据更有价值”的观点逐渐成为主流。王潜认为,数据虽然很重要,但不是简单的“越多越好”。
事实上,语言模型已经验证过,单纯堆数据规模未必带来最好效果,高质量、高效率的数据才是决定性因素。他认为在具身场景里,数据质量比数据总量更能拉开一个量级上的差距。在这里,站在金字塔顶尖的真机数据或许可以少,但很可能是打地基的那一层或者说是针对仿真、视频数据之外,支撑大局的存在。
最后是对“种类”的丰富需求,多模态数据的需求日益迫切。随着机器人应用场景扩展,单一类型的数据已无法满足需求。比如在家庭服务场景中,机器人需要同时处理视觉(识别物体)、听觉(理解指令)、触觉(感知物体软硬)、力反馈(控制动作力度)等多维度信息。当前业内所说的多模态能力,多是承袭基座大模型的视觉、语言能力,在真正物理交互中的触觉、力反馈等模态少之又少。
这种对数据种类的丰富需求,也让行业意识到:未来的数据采集,不仅要记录“机器人做了什么”,还要记录“环境发生了什么”“交互有何反馈”“人类需要什么”,才能让模型更懂物理世界、更懂人类需求。在技术的早期,总有人试图寻找唯一正确的路线,希望通过一次性押注来穿越迷雾。但具身智能的复杂性正在提醒行业:真正的智能不是从一条路径长出来,而是从无数次试错、冲突与调和中被“雕刻”出来。模型不完美,数据不完整,架构不统一,这听上去像缺陷,却恰恰是具身智能最真实的生命力所在。
本文来自微信公众号“具身研习社”,作者:彭堃方,编辑:吕鑫燚,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



