北京开源天工“视觉语言大脑”，具身智能新突破

2025-11-19

怎样将人形机器人天工“长眼会动脑”的能力推广到更多机器人上呢？11月13日，北京人形机器人创新中心全面开源了具身智能VLM（视觉 - 语言）模型——Pelican - VL 1.0。这个模型就如同人形机器人天工的“视觉语言大脑”，涵盖7B、72B参数规模，是目前“最大规模的开源具身多模态大模型”，也是全球性能最强的具身智能VLM模型。

当下，要实现“让机器人服务人类”这一目标，还面临着具身智能体对“空间 - 时间”理解不足、多步骤长线程复杂决策能力缺失等难题。在机器人典型的“视觉 - 语言 - 行动”系统中，Pelican - VL起着“视觉语言大脑”的作用，负责“看图听话”，让机器人理解指令和环境，能像人类一样把复杂任务拆解并进行操作。

Pelican - VL发布现场。北京人形机器人创新中心 / 供图

例如，当人类向天工发出“把鞋子放到鞋架上、将桌上的垃圾扔到垃圾桶，再把衣服放入洗衣机”这样一连串指令时，Pelican - VL就能感知房间里的物体和布局，构建出整个环境的语义表示，然后根据指令自动生成行动序列，指挥机器人依次完成移动、抓取、放置等任务。

为了实现这一突破，Pelican - VL的核心主创团队提出了一套全新的DPPO（刻意训练）训练范式，这是全球首创的具身多模态大模型后训练自进化算法框架。该框架能让Pelican - VL如同一个刻苦学习的学生，每次训练循环都会“看视频—自主练习—发现错误—纠正提升”，并在这个循环中不断自我纠错和迭代进步。这使得Pelican - VL仅用其他大模型1/10甚至1/50的数据量，就达成了“性能最强”的目标。

经测试，Pelican - VL 1.0在具身智能领域的性能超越GPT - 5同类模型15.79%，与Google gemini系列模型相比提升19.25%，成为目前最强的开源具身多模态大模型。

Pelican - VL 1.0的开源，不仅意味着北京人形机器人在具身智能领域有了重大突破，还能帮助更多人形机器人更好地感知空间 - 时间、实现具身交互。作为具身智能的基础软件平台，Pelican - VL 1.0的开源将以“开放型大脑”的形式，让各厂商基于它快速开发特定场景下的应用方案，大大降低开发成本和难度。在商业服务、工业制造、高危作业、家庭服务等多种真实场景中，更多机器人将在其助力下具备灵活自适应、多步规划的能力。

北京人形机器人新中心自2023年11月在北京经开区成立以来，依托区内完善的研发场地、测试环境及产业配套支持，打造了通用硬件平台“具身天工”和通用软件平台“慧思开物”，并在此基础上推动具身智能从“能跑”迈向“聪明和好用”的突破。在区内举办的全球首个人形机器人半程马拉松赛事中，北京人形机器人新中心“天工Ultra ”人形机器人夺得冠军。此次Pelican - VL 1.0的开源，不仅是技术上的突破，也是生态布局的又一步。随着政策与场景等协同推进，北京亦庄正赋能软硬协同攻关、二次开发等领域，加快推动具身智能机器人创新发展，抢占全球机器人产业制高点。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

第五届公园城市论坛：回首过往，迈向新征程

冲！兼具颜值与实力的实况神机OPPO Reno15系列

深圳多项新动态：地标开工、医疗新举、交通进展与光影盛宴

时速350公里的西延高铁开启试运行

流感重症高风险人群及预防应对全攻略

项目推荐

迪瓜租机

康老板 · 氧疗堂