OpenClaw赋能机器人:人形机器人竞争逻辑或将改写

2天前
OpenClaw是否会颠覆打工人的工作方式尚未可知,但具身智能领域似乎正面临变革。


近期网络上流传着不少相关视频,一些不满足于“赛博养虾”的网友,为OpenClaw配备了摄像头与机械臂。这一操作后,人们发现OpenClaw不仅能在电脑上完成任务,在现实场景中同样表现出色。


例如,有网友为OpenClaw搭配了电脑、机械臂和摄像头,他们没有针对该任务重新编写程序,也未单独训练模型,仅对OpenClaw下达指令:“把这些汽车零件分类。”


OpenClaw便顺利完成了零件分拣工作。



这对具身智能领域的冲击有多大呢?


这么说吧,就在不到一年前,这些能力在人形机器人公司还是值得专门召开发布会,并花费上百万美元在全球宣传的亮点。


但如今,同样的能力被OpenClaw轻松实现,而它甚至并非为具身智能专门设计的工具。


所以这件事听起来有些不可思议。


那么,OpenClaw究竟为人形机器人带来了什么?在OpenClaw如此强大的情况下,专门的具身大模型还有存在的意义吗?机器人公司此前的工作是否白费了?为何机器人公司多年的努力成果,OpenClaw能轻易达成?


以及当热潮退去后,哪些企业会暴露短板?


“养虾”延伸至机器人领域


我仍记得,大约在去年(2025年)4月初,国内一家头部人形机器人公司在北京隆重举办了一场发布会,主题是人形机器人开发平台。


当时,该平台的核心优势在于:仅通过语音指令,就能在工业场景中完成散乱零件的分拣,动作流畅且错误率低。


这个描述是不是很熟悉?它与如今OpenClaw能实现的功能几乎一致。


不同之处在于,这家公司发布的平台是专门针对机器人设计的,它拆分了数十个场景,训练智能体(Agent),再通过行为路径规划将其串联,其中包含了大量工作。


当时,该公司为这个平台的宣传语是:人形机器人从演示走向实用、从实验室进入工厂的关键一步。而现在,OpenClaw似乎也轻松实现了类似能力,但显然,OpenClaw并未经历这些复杂过程。


这就好比你和朋友一起爬山,你精心准备、提前出发,耗费大量时间,终于气喘吁吁地到达山顶,却发现朋友坐着直升机早已在那里等候。


具体而言,OpenClaw在更多场景中展现出了强大的泛化能力、决策能力和自我进化能力。


比如在一个实验中,还有一段更贴近生活的测试。工作人员对机械臂说:“今天是元宵节,给我做些甜米酒汤圆。”


机械臂先是停顿思考任务,随后开始执行:将汤倒入锅中,放入汤圆,等待水煮沸。


中途工作人员询问:“能不能加点糖?”


机械臂反问:“黄糖还是桂花糖?”


得到“黄糖”的回答后,它便将糖倒入锅中。


此外还有各类实验,比如有开发者将OpenClaw接入工业机械臂,使其根据自然语言指令完成抓取或搬运任务,系统甚至会自动生成控制机械臂的Python脚本。


除了机械臂,四足机器人也很快出现在各种“养虾”实验中。


在Reddit和X平台流传的一些视频里,有开发者将OpenClaw接入机器狗,让它在环境中自主巡逻。


过去,这类机器人通常需要遥控操作,或者按照预先设定的路线行动。但在这些实验中,没有操控,也没有提前规划的路线,机器狗根据摄像头捕捉到的环境,自行判断、规划,比如绕开障碍物,或在遇到新情况时重新规划路径。



而当这些实验应用到人形机器人上时,情况变得更有趣了。


比如在一个开源社区中,有人发布了一套适用于OpenClaw的Unitree-robot技能。有了这个集成,开发者可以直接通过即时通讯软件控制宇树机器人,比如G1,甚至包括更大的H1,以及四足机器人GO1和GO2。


整个过程比想象中简单。开发者无需打开复杂的图形界面,也不用手动调用SDK,只需在聊天窗口发送一句话:


“前进一米。”


“左转45度。”


机器人就会执行相应动作。


这种控制甚至是双向的。OpenClaw可以从机器人搭载的立体相机中获取环境图像,再将截图发回聊天窗口,让开发者随时查看现场情况。如果再接入路径规划模块,系统还能自动规划路线、避开障碍物。



同样,整个过程没有预设脚本,也没有提前规划好的动作路径。


开发者只需给出目标,剩下的事情就交给AI,它会自行判断、规划。


OpenClaw能否颠覆人形机器人行业


从各种演示视频中,我们看到了OpenClaw结合其他大模型所展现出的惊人能力。


放在以前,这足以成为许多人形机器人公司最引以为傲的成果,如今却变得寻常。


因此,人们不禁产生疑问:机器人行业多年来在数据采集、模型训练、系统开发上投入的努力,还有价值吗?


答案是否定的。


这得从机器人的决策系统说起,除了本体,决策系统大致可分为四层,从上到下依次是:


决策层(大脑):理解目标并拆解任务;


感知/表征层:识别环境、目标与空间状态;


行为组织层:将任务拆分为技能和动作序列;


控制层(小脑):负责轨迹规划、伺服控制、避障和安全执行。



在这个框架下,OpenClaw主要负责前几层能力的调用、编排与衔接。至于机器人最终如何动作、动作能否稳定执行,仍依赖底层控制系统、运动学求解和执行链路。


所以,OpenClaw并非让机器人突然学会运动,它更像是一个上层调度系统,将人的指令转化为一连串可调用的能力。


这里真正值得关注的亮点有两个。


其一,OpenClaw改变了机器人获取这些能力的方式。


过去,很多能力并非无法实现,而是往往需要为单一任务投入大量数据采集、专门训练和复杂的规则设计。


如今,OpenClaw可以直接借助已成熟的多模态模型、工具系统和模块化执行链路,将许多原本需要单独开发、训练的能力,转化为可直接调用和快速组合的能力。


结果就是,同样的抓取、查找或巡检任务,开发效率更高,试错周期更短,整体成本也更低。


其二,OpenClaw让机器人开始具备一种过去很少真正实现的能力:对现实世界的持续记忆。


传统机器人更多是“即时性”工作。它看到什么就做出相应反应,任务结束后,对环境的理解大多停留在那一刻。很多系统虽能绘制地图、定位和保存任务状态,但通常不会将“地点、物体、事件和时间”持续组织成可随时调用的统一记忆结构。


现在,OpenClaw开始尝试将机器人感知到的重要对象、地点、事件和时间组织成可检索的时空语义记忆。


这意味着,机器人不再只是执行命令,而是在持续积累上下文信息。


比如一个人何时进入房间、一个物体被放在何处、一段行为发生的时间点等,都可能成为后续搜索、判断和行动的依据。


当然,这并不意味着它已拥有像人类一样完整的世界认知,但至少说明它开始具备面向现实世界的结构化记忆能力。


这件事的意义在于,机器人能力的边界正从“完成单次任务”向“持续理解环境”拓展。(在同一或相似环境中,持续的上下文信息会提升任务连续性和局部稳定性,但这并不等同于系统获得了广义泛化能力。)


OpenClaw能做到这些并非偶然,背后有两个重要原因。


第一个原因是,近年来机器人底层架构发生了变化。


过去,很多机器人系统更像封闭的“烟囱”:感知、规划、控制各自独立,连接复杂,开发门槛高。很多能力虽已存在,却难以灵活调用。


如今,机器人系统正变得越来越模块化、标准化。相机、机械臂、抓取模块、路径规划、底层控制接口等,都逐渐成为可插拔、可组合的能力单元。


OpenClaw之所以看似强大,并非因为它凭空创造了底层机器人能力,而是因为它能站在逐渐标准化的执行栈之上,重新组织这些能力。


第二个原因是,多模态大模型正在快速整合原本分散的能力。


过去,人形机器人完成一个任务,往往要单独解决文字理解、语音识别、图像识别、视频理解、目标检测、空间判断、任务拆解等多个问题,且常由不同模块分别处理。


现在,多模态大模型已能同时处理文字、图像、语音、视频等多种信息,并将这些信息纳入同一上下文进行统一理解。这意味着,机器人过去那些需要单独训练、接入的感知和理解能力,正被更通用的基础模型逐步整合。


这显著降低了机器人上层智能的开发门槛。OpenClaw的意义就在于,它不是重新发明这些能力,而是将这些已增强的通用能力更高效地接入机器人系统。


具身大模型是否仍有价值?


谈到这里,自然会引出一个更关键的问题:既然基础模型越来越强,单独研发具身智能大模型还有意义吗?


毕竟在此之前,很多人形机器人公司都曾高调宣布自研具身大模型,并将其视为公司最重要的战略核心,仿佛谁掌握了具身模型,谁就掌控了机器人的未来。


但现在看来,通用基础模型正迅速完善理解、感知和任务编排能力,机器人公司多年构建的部分上层能力,正被更大的基础模型体系快速通用化。


答案是:有,而且依然重要。


原因在于,基础模型的强化主要改变了机器人“理解世界”的能力;而具身模型真正决定的,是机器人“如何在物理世界中执行动作”的能力。


理解一句话、识别一个目标、拆解一个任务,这些确实越来越像通用能力。但机器人最难的部分,从来不是听懂、看懂,而是进入现实世界后,动作是否可行、抓取角度是否正确、轨迹是否稳定、接触力是否可控、目标被遮挡后能否继续、抓取失败后能否恢复,以及换场景、换物体、换机器后能否成功。


这些问题并非仅靠更强的“理解能力”就能自动解决。


具身智能大模型的价值,不在于包揽所有任务,而在于沉淀大量与动作、操作、交互相关的经验,让机器人不仅能做出演示,更能形成稳定、可复用、可泛化的能力。


换句话说,通用模型正在覆盖“理解层”;而具身模型坚守的,仍是“动作层”和“物理落地层”。


所以,具身模型并非失去意义,而是其角色正在转变:过去它像是想包办一切的“全栈大脑”,现在更像是机器人系统中决定能力上限的关键一层。


最后,回到最初的问题:OpenClaw究竟给人形机器人行业带来了什么?


答案是,它让整个行业更早接受了一个事实:人形机器人的上层任务智能正快速通用化。


过去,很多公司最稀缺的能力是将理解、感知、规划和调用整合成一个可运行的系统;但现在,随着多模态基础模型和智能体(Agent)框架的成熟,这部分门槛正迅速降低。


做出一个像样的演示会越来越容易,这也意味着机器人行业正进入深水区。


未来的竞争,不再是谁先做出“能听懂指令”的演示,而是谁能让动作更稳定、成功率更高,将系统打造成低延迟、可复现、可量产、可安全部署的产品。真正决定胜负的,是更底层的专业能力:控制、数据、鲁棒性、工程化和量产能力。


也就是说,OpenClaw降低了做演示的门槛,却没有降低做成产品的难度。


而这正是它对行业最大的冲击:那些仍停留在表面、靠手动制作演示讲故事的公司,竞争力会迅速被削弱;当热潮退去,就能看清谁在“裸泳”。


本文来自微信公众号“有界UnKnown”,作者:钱江,编辑:山茶,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com