VLA,这是完全自动驾驶的唯一途径?

06-19 07:10

电子爱好者网报道 (文 / 最近,梁浩斌在智驾领域又出现了许多“新词”,比如蔚来推出的。 NWM、许多汽车公司和智能驾驶供应商都在推广。 VLA。事实上,从每个家庭的路线来看,随着计算能力较大的芯片,如小鹏、蔚来自研发的智能驾驶芯片,以及英伟达 Thor 上车,越来越多的智驾方案选择 VLA 的路径。


因此,本文将对当前智驾领域集中主流的大模型技术路线进行梳理,以及各厂商实现方式的差异与发展。


VLA 和 VLM


VLA 即 Vision-Language-Action,视觉 - 语言 - 动作模型。简而言之,VLA 它是一种多模态,结合视觉感知、语言逻辑和动作决策。 AI 模型。VLA 通过统一的空间智能、语言智能和行为智能,自动驾驶系统可以更全面地了解复杂的环境和任务。


VLA 主要有三种核心能力,包括三种。 BEV、激光雷达等视觉输入;了解自然语言指令或场景描述等语言处理能力;以及车辆控制动作的输出能力。最后,通过这三种能力,从感知到决策的端到端实现了闭环。


VLM 即 Vision-Language Model,视觉 - 语言模型,从名称上看,VLA 便是在 VLM 在此基础上增加了动作能力,事实也是如此。


VLA 在 VLM 在多模态推理和理解的核心能力上,增强了动作产生的能力, VLM 输出,例如,直接将“在这个十字路口左转”的指令导出转换成汽车的控制指令,包括油门、方向盘角度、制动强度等。


一般来说,VLA 通常也是以预训练为基础的 VLM 底座模型,使用 VLM 通过引入动作预测模块来扩展视觉和语言能力,使其适应各种任务,包括机器人、自动驾驶等。


具体应用于自动驾驶,VLA 可以直接调用 VLM 产生的语义理解结果,如识别视频屏幕中的交通标志、场景描述等。,并结合即时感知数据生成汽车控制指令。同时,VLA 执行结果,也可以反向提高。 VLM 了解场景的能力,提高决策选择。


简单总结一下,VLM 这是一个专注于理解的模型。它通过自然语言描述当前车辆前方的场景,以及“看到”什么,并能导出一些车辆控制指令的文本。VLA 主要集中在动作控制上,在获得场景的自然语言信息之后,处理车辆应如何继续行驶,如做避让、变道等操作,并且直接导出具体的控制指令,如油门、方向盘角度、制动强度等。


小鹏,理想,元戎落注。 VLA,但是实现的方法不同


现在小鹏、理想、元戎启动等车企和智驾企业,都展示了它们 VLA 技术布局,并表示将大规模生产。


元戎启行 CEO 最近的周光 2025 年火山引擎 Force 原动力大会宣布,将与火山引擎携手,共同研发基于豆包大模型的火山引擎。 VLA 等待前瞻技术,元戎骑自行车 VLA 模型将在 2025 2008年第三季度推向消费市场。


在此之前,理想汽车透露 VLA 该模型将于今年第三季度安装在理想中。 L9/L8 改款车型。


最近小鹏的小鹏汽车 G7 新闻发布会上表示,行业将首发本地端 VLA VLM 大型模型。小鹏在车端实现 VLA 一般来说,选择超大参数云模型,训练世界模型底座,然后通过蒸馏生产出适合汽车计算能力的小模型,最大限度地保留云模型底座的核心能力。


今年 4 月,小鹏汽车宣布开发参数规模已达到。 720 一亿云大模型,即“小鹏世界底座模型”。该基础模型采用大语言模型作为骨干网络,采用大量优质驾驶数据进行训练。 VLA 大模型(视觉) - 语言 - 行为模型),具有视觉理解能力,链式推理能力(CoT)以及动作生成能力。现在,小鹏汽车已经用超小底座模型完成了后装计算能力汽车端的控制。如果没有任何规则代码拖底,新的" AI 大脑“表现出令人惊讶的基本驾驶技能,能顺利地加减速,变道绕道,转弯,等待红绿灯等等。


上星期的计算机视觉顶会 CVPR 2025 事实上,小鹏汽车也分享了其基本模型的进展。小鹏世界底座模型负责人刘先明博士说,小鹏汽车已经在云上训练过了 10 亿、30 亿、70 亿、720 亿等多个参数模型,并不断向模型“投喂”更大规模的训练数据。现在,小鹏世界底座模型累计“吃” 2000 数以万计的视频短片(每个时间) 30 秒)。


在这个过程中,R&D部门清楚地看到了规模法则(Scaling Law)显示。换言之,模型参数值越大,模型学习数据越多,模型性能越强。那就是 AI 到目前为止,业界首次明确了自动驾驶的验证规模法则。 VLA 模型继续起作用。


理想汽车的 VLA 路线不同。首先蒸馏底座模型,生产汽车端的蒸馏模型,然后加强学习,实现“司机”。 Agent "。


蔚来世界模型 NWM


蔚来最近推出了它的最新推送。 NWM 第一个版本,根据蔚来的介绍,蔚来世界模型 NWM 它是一种多元化的自回归生成模型,具有空间认知和时间思维能力,可以长期做出决策和演绎。蔚来世界模型 NWM 多模态输入输出也是如此,输入多模态数据包括图像、语言,输出多模态数据包括图像和行动。


因此 NWM 实际上是包含的 VLA 所有的特征,但不同之处在于,NWM 对空间理解的能力,以及长时序的建模能力都会更强。


蔚来利用停车场自主寻径的功能 NWM 认知、理解和推理能力。例如,当汽车在行驶过程中看到“ 15-20 号楼→"在标牌上,它可以理解。 18 号码楼应该向右;在最后一个路口看到“出口直行”这个词,但是目前的路口没有标志,车辆可以推断出出口应该继续直行。


写在最后


元戎启动感觉,VLA 这是完全自动驾驶的唯一途径。目前 VLA 的确已成为智驾的主流发展方向, VLA 对汽车计算能力的需求,也将推动智能驾驶芯片计算能力的爆发。


阅读更多热门文章


加关注 星标我们


把我们设为星标,不要错过每一次更新!


喜欢就奖励一个“在看”!


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com