OpenClaw赋能机器人：人形机器人竞争逻辑或将改写

03-17 06:24

OpenClaw是否会颠覆打工人的工作方式尚未可知，但具身智能领域似乎正面临变革。

近期网络上流传着不少相关视频，一些不满足于“赛博养虾”的网友，为OpenClaw配备了摄像头与机械臂。这一操作后，人们发现OpenClaw不仅能在电脑上完成任务，在现实场景中同样表现出色。

例如，有网友为OpenClaw搭配了电脑、机械臂和摄像头，他们没有针对该任务重新编写程序，也未单独训练模型，仅对OpenClaw下达指令：“把这些汽车零件分类。”

OpenClaw便顺利完成了零件分拣工作。

这对具身智能领域的冲击有多大呢？

这么说吧，就在不到一年前，这些能力在人形机器人公司还是值得专门召开发布会，并花费上百万美元在全球宣传的亮点。

但如今，同样的能力被OpenClaw轻松实现，而它甚至并非为具身智能专门设计的工具。

所以这件事听起来有些不可思议。

那么，OpenClaw究竟为人形机器人带来了什么？在OpenClaw如此强大的情况下，专门的具身大模型还有存在的意义吗？机器人公司此前的工作是否白费了？为何机器人公司多年的努力成果，OpenClaw能轻易达成？

以及当热潮退去后，哪些企业会暴露短板？

“养虾”延伸至机器人领域

我仍记得，大约在去年（2025年）4月初，国内一家头部人形机器人公司在北京隆重举办了一场发布会，主题是人形机器人开发平台。

当时，该平台的核心优势在于：仅通过语音指令，就能在工业场景中完成散乱零件的分拣，动作流畅且错误率低。

这个描述是不是很熟悉？它与如今OpenClaw能实现的功能几乎一致。

不同之处在于，这家公司发布的平台是专门针对机器人设计的，它拆分了数十个场景，训练智能体（Agent），再通过行为路径规划将其串联，其中包含了大量工作。

当时，该公司为这个平台的宣传语是：人形机器人从演示走向实用、从实验室进入工厂的关键一步。而现在，OpenClaw似乎也轻松实现了类似能力，但显然，OpenClaw并未经历这些复杂过程。

这就好比你和朋友一起爬山，你精心准备、提前出发，耗费大量时间，终于气喘吁吁地到达山顶，却发现朋友坐着直升机早已在那里等候。

具体而言，OpenClaw在更多场景中展现出了强大的泛化能力、决策能力和自我进化能力。

比如在一个实验中，还有一段更贴近生活的测试。工作人员对机械臂说：“今天是元宵节，给我做些甜米酒汤圆。”

机械臂先是停顿思考任务，随后开始执行：将汤倒入锅中，放入汤圆，等待水煮沸。

中途工作人员询问：“能不能加点糖？”

机械臂反问：“黄糖还是桂花糖？”

得到“黄糖”的回答后，它便将糖倒入锅中。

此外还有各类实验，比如有开发者将OpenClaw接入工业机械臂，使其根据自然语言指令完成抓取或搬运任务，系统甚至会自动生成控制机械臂的Python脚本。

除了机械臂，四足机器人也很快出现在各种“养虾”实验中。

在Reddit和X平台流传的一些视频里，有开发者将OpenClaw接入机器狗，让它在环境中自主巡逻。

过去，这类机器人通常需要遥控操作，或者按照预先设定的路线行动。但在这些实验中，没有操控，也没有提前规划的路线，机器狗根据摄像头捕捉到的环境，自行判断、规划，比如绕开障碍物，或在遇到新情况时重新规划路径。

而当这些实验应用到人形机器人上时，情况变得更有趣了。

比如在一个开源社区中，有人发布了一套适用于OpenClaw的Unitree-robot技能。有了这个集成，开发者可以直接通过即时通讯软件控制宇树机器人，比如G1，甚至包括更大的H1，以及四足机器人GO1和GO2。

整个过程比想象中简单。开发者无需打开复杂的图形界面，也不用手动调用SDK，只需在聊天窗口发送一句话：

“前进一米。”

“左转45度。”

机器人就会执行相应动作。

这种控制甚至是双向的。OpenClaw可以从机器人搭载的立体相机中获取环境图像，再将截图发回聊天窗口，让开发者随时查看现场情况。如果再接入路径规划模块，系统还能自动规划路线、避开障碍物。

同样，整个过程没有预设脚本，也没有提前规划好的动作路径。

开发者只需给出目标，剩下的事情就交给AI，它会自行判断、规划。

OpenClaw能否颠覆人形机器人行业？

从各种演示视频中，我们看到了OpenClaw结合其他大模型所展现出的惊人能力。

放在以前，这足以成为许多人形机器人公司最引以为傲的成果，如今却变得寻常。

因此，人们不禁产生疑问：机器人行业多年来在数据采集、模型训练、系统开发上投入的努力，还有价值吗？

答案是否定的。

这得从机器人的决策系统说起，除了本体，决策系统大致可分为四层，从上到下依次是：

决策层（大脑）：理解目标并拆解任务；

感知/表征层：识别环境、目标与空间状态；

行为组织层：将任务拆分为技能和动作序列；

控制层（小脑）：负责轨迹规划、伺服控制、避障和安全执行。

在这个框架下，OpenClaw主要负责前几层能力的调用、编排与衔接。至于机器人最终如何动作、动作能否稳定执行，仍依赖底层控制系统、运动学求解和执行链路。

所以，OpenClaw并非让机器人突然学会运动，它更像是一个上层调度系统，将人的指令转化为一连串可调用的能力。

这里真正值得关注的亮点有两个。

其一，OpenClaw改变了机器人获取这些能力的方式。

过去，很多能力并非无法实现，而是往往需要为单一任务投入大量数据采集、专门训练和复杂的规则设计。

如今，OpenClaw可以直接借助已成熟的多模态模型、工具系统和模块化执行链路，将许多原本需要单独开发、训练的能力，转化为可直接调用和快速组合的能力。

结果就是，同样的抓取、查找或巡检任务，开发效率更高，试错周期更短，整体成本也更低。

其二，OpenClaw让机器人开始具备一种过去很少真正实现的能力：对现实世界的持续记忆。

传统机器人更多是“即时性”工作。它看到什么就做出相应反应，任务结束后，对环境的理解大多停留在那一刻。很多系统虽能绘制地图、定位和保存任务状态，但通常不会将“地点、物体、事件和时间”持续组织成可随时调用的统一记忆结构。

现在，OpenClaw开始尝试将机器人感知到的重要对象、地点、事件和时间组织成可检索的时空语义记忆。

这意味着，机器人不再只是执行命令，而是在持续积累上下文信息。

比如一个人何时进入房间、一个物体被放在何处、一段行为发生的时间点等，都可能成为后续搜索、判断和行动的依据。

当然，这并不意味着它已拥有像人类一样完整的世界认知，但至少说明它开始具备面向现实世界的结构化记忆能力。

这件事的意义在于，机器人能力的边界正从“完成单次任务”向“持续理解环境”拓展。（在同一或相似环境中，持续的上下文信息会提升任务连续性和局部稳定性，但这并不等同于系统获得了广义泛化能力。）

OpenClaw能做到这些并非偶然，背后有两个重要原因。

第一个原因是，近年来机器人底层架构发生了变化。

过去，很多机器人系统更像封闭的“烟囱”：感知、规划、控制各自独立，连接复杂，开发门槛高。很多能力虽已存在，却难以灵活调用。

如今，机器人系统正变得越来越模块化、标准化。相机、机械臂、抓取模块、路径规划、底层控制接口等，都逐渐成为可插拔、可组合的能力单元。

OpenClaw之所以看似强大，并非因为它凭空创造了底层机器人能力，而是因为它能站在逐渐标准化的执行栈之上，重新组织这些能力。

第二个原因是，多模态大模型正在快速整合原本分散的能力。

过去，人形机器人完成一个任务，往往要单独解决文字理解、语音识别、图像识别、视频理解、目标检测、空间判断、任务拆解等多个问题，且常由不同模块分别处理。

现在，多模态大模型已能同时处理文字、图像、语音、视频等多种信息，并将这些信息纳入同一上下文进行统一理解。这意味着，机器人过去那些需要单独训练、接入的感知和理解能力，正被更通用的基础模型逐步整合。

这显著降低了机器人上层智能的开发门槛。OpenClaw的意义就在于，它不是重新发明这些能力，而是将这些已增强的通用能力更高效地接入机器人系统。

具身大模型是否仍有价值？

谈到这里，自然会引出一个更关键的问题：既然基础模型越来越强，单独研发具身智能大模型还有意义吗？

毕竟在此之前，很多人形机器人公司都曾高调宣布自研具身大模型，并将其视为公司最重要的战略核心，仿佛谁掌握了具身模型，谁就掌控了机器人的未来。

但现在看来，通用基础模型正迅速完善理解、感知和任务编排能力，机器人公司多年构建的部分上层能力，正被更大的基础模型体系快速通用化。

答案是：有，而且依然重要。

原因在于，基础模型的强化主要改变了机器人“理解世界”的能力；而具身模型真正决定的，是机器人“如何在物理世界中执行动作”的能力。

理解一句话、识别一个目标、拆解一个任务，这些确实越来越像通用能力。但机器人最难的部分，从来不是听懂、看懂，而是进入现实世界后，动作是否可行、抓取角度是否正确、轨迹是否稳定、接触力是否可控、目标被遮挡后能否继续、抓取失败后能否恢复，以及换场景、换物体、换机器后能否成功。

这些问题并非仅靠更强的“理解能力”就能自动解决。

具身智能大模型的价值，不在于包揽所有任务，而在于沉淀大量与动作、操作、交互相关的经验，让机器人不仅能做出演示，更能形成稳定、可复用、可泛化的能力。

换句话说，通用模型正在覆盖“理解层”；而具身模型坚守的，仍是“动作层”和“物理落地层”。

所以，具身模型并非失去意义，而是其角色正在转变：过去它像是想包办一切的“全栈大脑”，现在更像是机器人系统中决定能力上限的关键一层。

最后，回到最初的问题：OpenClaw究竟给人形机器人行业带来了什么？

答案是，它让整个行业更早接受了一个事实：人形机器人的上层任务智能正快速通用化。

过去，很多公司最稀缺的能力是将理解、感知、规划和调用整合成一个可运行的系统；但现在，随着多模态基础模型和智能体（Agent）框架的成熟，这部分门槛正迅速降低。

做出一个像样的演示会越来越容易，这也意味着机器人行业正进入深水区。

未来的竞争，不再是谁先做出“能听懂指令”的演示，而是谁能让动作更稳定、成功率更高，将系统打造成低延迟、可复现、可量产、可安全部署的产品。真正决定胜负的，是更底层的专业能力：控制、数据、鲁棒性、工程化和量产能力。

也就是说，OpenClaw降低了做演示的门槛，却没有降低做成产品的难度。

而这正是它对行业最大的冲击：那些仍停留在表面、靠手动制作演示讲故事的公司，竞争力会迅速被削弱；当热潮退去，就能看清谁在“裸泳”。

本文来自微信公众号“有界UnKnown”，作者：钱江，编辑：山茶，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

美方连续发起301调查中方严正回应：错上加错并已提出交涉

经侦支队积极参与3.15金融消费者权益保护集中宣传活动

焦虑的本质：失控的规划如何引发持续担忧

法治进校园守护少年路——许昌两级法院“开学第一课”普法活动纪实

服药前摇不摇？这个细节关乎药效与安全

项目推荐

康小虎百岁计划・健康大使招募计划

毛加健康

康老板 · 氧疗堂