全球首个商品级端到端的银河通用发布FSD大模型。
IT 世家 6 月 1 日消息,银河通用发布了世界上第一个商品级端到端。 FSD 大模型 —— TrackVLA,一个纯粹的视觉环境感知,语言指令驱动,可以独立推理,有零样本。(Zero-Shot)具体大模型的泛化能力。
据 IT 世家了解,TrackVLA 它是银河通用推出的产品级导航模型。它是一种由模拟生成动作数据训练的“视觉化”,纯视觉环境感知、自然语言指令驱动、端到端导出语言和机器人动作。 - 语言 - 动作"(Vision-Language-Action, VLA)大模型。它使机器人拥有“听” → 看 → 懂 → “行走”闭环运动能力:一双眼睛看世界,一个智能“大脑”做推理,真正实现语言驱动、泛化感知、自我推理、智能交互和运动,无需提前建图或依靠遥控。
TrackVLA 八大核心能力:
1. 理解你的演讲,还可以换人跟你说话。
你只需要说一句“跟着妈妈”,它就能立刻识别出“妈妈”对应的目标位置。如果你改变主意说“和孩子一起”,它也可以通过语音回复瞬间改变目标并确定。甚至,Ta 也可以跟踪你的宠物。这背后是模型所具有的自然语言理解和目标识别能力的协调。
2. 不要害怕人多也不要和错人
在拥挤的购物中心,面对复杂的场景和多变的环境,可以准确识别原始目标,长期独立跟随。通过空间理解和视觉记忆机制,防止“认错人”。
3. 失去目标可以找回
如果目标走出视线,不会原地“发呆”,而是根据目标轨迹“分析”目标的大致位置,通过实时空间智能和大模型推理能力,规划轨迹重新找回目标。
4. 从未见过的区域也可以走。
TrackVLA 不依赖绘图,通过纯视觉输入了解环境。可以直接部署在生疏商场、电梯、游乐区等环境中,不依赖额外的培训数据,实现长期稳定独立的跟随。
5. 适应复杂场景,灵活避障。
在儿童游乐区、狭窄通道等复杂场景下,可以实时识别障碍物(包括儿童、玩具、路面水痕等)。),分析可以通过的区域,正确认识自己的能力,独立推断出自己构型支持的合理路线。
6. 环境光变化?不要害怕
从室外的阳光到室内的黑暗,从电梯镜反射到超市货架的缝隙,TrackVLA 表现出极强的鲁棒性,无需特殊的调参或切换模式。
7. 远程可视守护,一目了然。
通过 App,你可以实时看到机器人眼中的第一个视角,掌握家庭动态。系统还可以主动提示风险行为(如儿童奔跑、老人摔倒),提供“移动守护”。
8. 技能涌现!
TrackVLA 它不仅能顺利跟随人类,还能泛化到随意移动的目标。比如视频最后展示了一只动物狗,让机器狗跟着路上遇到的东西。它的目标形式、运动方式和障碍都非常不确定。TrackVLA 同时也表现出同样稳定的跟随能力,而且这种能力是在训练过程中教授的!
现在,这个模型已经配备了宇树机器狗化身“二宝保镖”来实现儿童护理,并且在没有经过训练的真实场景中完成了严格的长程验证。目前 TrackVLA 严格的长程验证已经在没有经过训练的真实场景中完成:在超市里穿梭在人流和货架之间,准确跟随母子;根据语音命令改变目标,在孩子玩耍时给出提示;可以正确认识自己的能力,用大模型独立推理分析;从电梯进入不熟悉的商场,完成持续的跟踪任务;在拥挤的服装店中稳定识别并避免他人的影响...
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




