全球首个商品级端到端的银河通用发布FSD大模型。

2025-06-02

IT 世家 6 月 1 日消息，银河通用发布了世界上第一个商品级端到端。 FSD 大模型 —— TrackVLA，一个纯粹的视觉环境感知，语言指令驱动，可以独立推理，有零样本。（Zero-Shot）具体大模型的泛化能力。

据 IT 世家了解，TrackVLA 它是银河通用推出的产品级导航模型。它是一种由模拟生成动作数据训练的“视觉化”，纯视觉环境感知、自然语言指令驱动、端到端导出语言和机器人动作。 - 语言 - 动作"（Vision-Language-Action, VLA）大模型。它使机器人拥有“听” → 看 → 懂 → “行走”闭环运动能力:一双眼睛看世界，一个智能“大脑”做推理，真正实现语言驱动、泛化感知、自我推理、智能交互和运动，无需提前建图或依靠遥控。

TrackVLA 八大核心能力：

1. 理解你的演讲，还可以换人跟你说话。

你只需要说一句“跟着妈妈”，它就能立刻识别出“妈妈”对应的目标位置。如果你改变主意说“和孩子一起”，它也可以通过语音回复瞬间改变目标并确定。甚至，Ta 也可以跟踪你的宠物。这背后是模型所具有的自然语言理解和目标识别能力的协调。

2. 不要害怕人多也不要和错人

在拥挤的购物中心，面对复杂的场景和多变的环境，可以准确识别原始目标，长期独立跟随。通过空间理解和视觉记忆机制，防止“认错人”。

3. 失去目标可以找回

如果目标走出视线，不会原地“发呆”，而是根据目标轨迹“分析”目标的大致位置，通过实时空间智能和大模型推理能力，规划轨迹重新找回目标。

4. 从未见过的区域也可以走。

TrackVLA 不依赖绘图，通过纯视觉输入了解环境。可以直接部署在生疏商场、电梯、游乐区等环境中，不依赖额外的培训数据，实现长期稳定独立的跟随。

5. 适应复杂场景，灵活避障。

在儿童游乐区、狭窄通道等复杂场景下，可以实时识别障碍物(包括儿童、玩具、路面水痕等)。)，分析可以通过的区域，正确认识自己的能力，独立推断出自己构型支持的合理路线。

6. 环境光变化？不要害怕

从室外的阳光到室内的黑暗，从电梯镜反射到超市货架的缝隙，TrackVLA 表现出极强的鲁棒性，无需特殊的调参或切换模式。

7. 远程可视守护，一目了然。

通过 App，你可以实时看到机器人眼中的第一个视角，掌握家庭动态。系统还可以主动提示风险行为(如儿童奔跑、老人摔倒)，提供“移动守护”。

8. 技能涌现！

TrackVLA 它不仅能顺利跟随人类，还能泛化到随意移动的目标。比如视频最后展示了一只动物狗，让机器狗跟着路上遇到的东西。它的目标形式、运动方式和障碍都非常不确定。TrackVLA 同时也表现出同样稳定的跟随能力，而且这种能力是在训练过程中教授的！

现在，这个模型已经配备了宇树机器狗化身“二宝保镖”来实现儿童护理，并且在没有经过训练的真实场景中完成了严格的长程验证。目前 TrackVLA 严格的长程验证已经在没有经过训练的真实场景中完成:在超市里穿梭在人流和货架之间，准确跟随母子；根据语音命令改变目标，在孩子玩耍时给出提示；可以正确认识自己的能力，用大模型独立推理分析；从电梯进入不熟悉的商场，完成持续的跟踪任务；在拥挤的服装店中稳定识别并避免他人的影响...

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

反击“黑飞”不忘温馨提醒。水陆空立体护航硬核暖心

请在未成年指导下观看。

李亚鹏的财务状况再次出现！海哈金喜首次回应婚变传闻，称确实两地分居。

Get同款，才知道明星多会选酒店！

六月份表演集预告

项目推荐

AI云印侠

幸福绩效

企业数字化人才孵化系统