北京开源天工“视觉语言大脑”,具身智能新突破

2025-11-19

怎样将人形机器人天工“长眼会动脑”的能力推广到更多机器人上呢?11月13日,北京人形机器人创新中心全面开源了具身智能VLM(视觉 - 语言)模型——Pelican - VL 1.0。这个模型就如同人形机器人天工的“视觉语言大脑”,涵盖7B、72B参数规模,是目前“最大规模的开源具身多模态大模型”,也是全球性能最强的具身智能VLM模型。

当下,要实现“让机器人服务人类”这一目标,还面临着具身智能体对“空间 - 时间”理解不足、多步骤长线程复杂决策能力缺失等难题。在机器人典型的“视觉 - 语言 - 行动”系统中,Pelican - VL起着“视觉语言大脑”的作用,负责“看图听话”,让机器人理解指令和环境,能像人类一样把复杂任务拆解并进行操作。

Pelican - VL发布现场。北京人形机器人创新中心 / 供图

例如,当人类向天工发出“把鞋子放到鞋架上、将桌上的垃圾扔到垃圾桶,再把衣服放入洗衣机”这样一连串指令时,Pelican - VL就能感知房间里的物体和布局,构建出整个环境的语义表示,然后根据指令自动生成行动序列,指挥机器人依次完成移动、抓取、放置等任务。

为了实现这一突破,Pelican - VL的核心主创团队提出了一套全新的DPPO(刻意训练)训练范式,这是全球首创的具身多模态大模型后训练自进化算法框架。该框架能让Pelican - VL如同一个刻苦学习的学生,每次训练循环都会“看视频—自主练习—发现错误—纠正提升”,并在这个循环中不断自我纠错和迭代进步。这使得Pelican - VL仅用其他大模型1/10甚至1/50的数据量,就达成了“性能最强”的目标。

经测试,Pelican - VL 1.0在具身智能领域的性能超越GPT - 5同类模型15.79%,与Google gemini系列模型相比提升19.25%,成为目前最强的开源具身多模态大模型。

Pelican - VL 1.0的开源,不仅意味着北京人形机器人在具身智能领域有了重大突破,还能帮助更多人形机器人更好地感知空间 - 时间、实现具身交互。作为具身智能的基础软件平台,Pelican - VL 1.0的开源将以“开放型大脑”的形式,让各厂商基于它快速开发特定场景下的应用方案,大大降低开发成本和难度。在商业服务、工业制造、高危作业、家庭服务等多种真实场景中,更多机器人将在其助力下具备灵活自适应、多步规划的能力。

北京人形机器人新中心自2023年11月在北京经开区成立以来,依托区内完善的研发场地、测试环境及产业配套支持,打造了通用硬件平台“具身天工”和通用软件平台“慧思开物”,并在此基础上推动具身智能从“能跑”迈向“聪明和好用”的突破。在区内举办的全球首个人形机器人半程马拉松赛事中,北京人形机器人新中心“天工Ultra ”人形机器人夺得冠军。此次Pelican - VL 1.0的开源,不仅是技术上的突破,也是生态布局的又一步。随着政策与场景等协同推进,北京亦庄正赋能软硬协同攻关、二次开发等领域,加快推动具身智能机器人创新发展,抢占全球机器人产业制高点。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com