开炒VLA,“端到端”过气?
端到端2.0时代,会“嗖”一下吗?
2024年,智驾领域最热门的词汇,就是“端到端”。即使是在不谈端到端都不能外出的水平。
然而,在这个光速迭代的智能电气时代,“端到端”将被迭代,这是可以想象的。所以,VLM、VLA、世界模型...概念出现,VLA被称为“端到端2.0”(Vision-Language-Action Model,视觉-语言-动作模型)隆重亮相。

从我之前的文章《奇瑞的智能驾驶水平,你走了哪一步?》中提到,根据计划,奇瑞的VLA将在2026年的年会上举行。也就是说,VLA大模型的建设将于2026年完成,智能化(VLA是智能领域的新模式)将在2027年达到。
原始设备制造商深度觉醒,但也要到2026年才能完成模型建设。那么,开炒的VLA概念是否如此迅速落地?
概念先行
智力驾驶的概念不断涌现,也代表着每个玩家的技术路线和投入重点。
事实上,“端到端”刚刚逐渐成为一种技术范式,甚至大量企业还没来得及完成R&D模式的切换,端到端又进化了。“端到端”的最新进化方向是深度融入多模式模型,进入VLA模式。

正如年中理想汽车发布的名字“端到端” VLM“双系统结构,其中,端到端在一个Orin中奔跑。 X芯片上,VLM(视觉语言模型)在另一个Orin中奔跑 X上。
不久之后,元戎首席执行官周光表示,预计明年将推出VLA。它的智能驾驶计划将安装在魏牌蓝山上,只需要一个Orin。 X芯片。
十一月底,商汤绝影举行了自己的第一次AI。 DAY,展示名为“开悟”的世界模式,可以生成模拟数据,结合量产实车收集的真实数据,共同重建物理世界。商汤绝影CTO肖枫还直接说:“‘地大华魔’的头部格局已经过去了。”
事实上,VLA模型最早出现在机器人行业。谷歌DeepMind于2023年7月28日推出了全球首个控制机器人视觉语言动作。(VLA)RT-2模型。此后,该模型概念迅速蔓延到智驾领域。
谷歌旗下自动驾驶公司Waymo于今年10月底推出了一款基于端到端的自动驾驶多模式EMMA。根据国内行业人士的认知,这是一种VLA模式结构。

那么,VLA真的会这么快到来吗?说实话,我不相信。就像全固态电池和智能底盘一样,行业内的“概念第一”也是如此。
事实上,商汤绝影CEO王晓刚并没有说:“端到端的发展还是要经历一个包括基础设施、数据积累和数据模拟在内的过程。要真正发挥它的力量,这不是一蹴而就的。”
理性地看一下,当端到端才进入规模推广时,所谓端到端2.0的VLA方案立刻想要落地面对非常现实的考验。
一方面,目前汽车端芯片硬件不足以支撑多模式大模型的部署和落地。比如理想的端到端。 VLM模型,对汽车端芯片硬件的要求很高,目前有2个英伟达OrinX芯片,计算率达到508Tops。
然而,一些业内人士表示,目前汽车计算率很难支持VLA模型的部署,这需要像英伟达最新一代汽车AI芯片Thor这样的计算率来支持。其次,单片AI计算率1000Tops的Thor很有可能会推迟发布,再加上英伟达芯片量产时间和成本的挑战,对汽车公司来说是个大问题。

还有一个费用问题。举例来说,如果是单个Orin X可以完成端到端,然后,配备两个Orin。 X芯片汽车,包括蔚来搭载四个Orin。 X芯片车,冗余是否过多,算率是否过于浪费?
当然,汽车公司也会考虑使用一些国内自主研发的大算率芯片。然而,这些还不得而知。
除了计算率,更具挑战性的是如何将端到端与多模式大模型的数据与信息紧密结合。这考验了汽车公司智能驾驶团队的模型框架定义能力和模型快速迭代能力。然而,VLA技术路线的突然升级和竞争变奏为尚未使用力量的玩家设置了更高的门槛,这似乎更高。
汽车端还是云端?
实际上,国内现在还在“卷”从“两段式”端到“一段式”端到端,VLA怎么会这么快呢?

根据博世智能驾驶控制中国区总裁吴永桥的分析,到明年,国内应该只有1-2家企业能够实现一级端到端。
当然,这条路线图正逐渐成为业界的共识,从两段端到端逐渐过渡到一段端到端,从而实现世界模型的应用。这是从汽车到云的道路。
简单来说,以端到端和VLA为代表的技术路线侧重于汽车,以世界模型为代表的技术路线侧重于云。当然,云的竞争也很激烈,甚至有一种说法是“未来竞争的核心云。”

随着下一代端到端的到来,计算能力的需求越来越大,智能驾驶话语权的竞争也越来越激烈。如何衡量汽车和云的当下和未来?这也考验了汽车公司的智慧。
实际上,云端军备竞赛早就非常激烈了。举例来说,理想汽车今年7月公布云算率2.4 EFLOPS,最近的数字是5.39 EFLOPS。目前小鹏汽车云计算率2.3. EFLOPS,预计明年将达到10 EFLOPS。余承东在去年9月的M7换代发布会上披露,华为的云计算率为1.8 EFLOPS。最近的数字已达到7.5 EFLOPS。
从智能驾驶竞争的最终结果来看,小鹏汽车认为云大模型的布局是取胜的关键。此外,云大模型路线和Open选择 AI选择的路线不谋而合。
根据小鹏的结构,云大模型通过知识蒸馏形成从车端到端的大模型。此外,大型云模型也用于清洁和挖掘世界模型和数据。在大型云模型的加持下,小鹏汽车的智能驾驶参数比传统汽车高80倍,带来8倍有效的视觉感知信息。

正因为如此,小鹏汽车的一套智能驾驶软件标配全车型,包括SUV、汽车,轿跑车,MPV等多种型号。
不只是小鹏汽车, 基于商汤20的“开悟”世界模式, EFLOPS的云算率,将能够使用“实车路面采集” 实现Cornerner的世界模型生成“一体两翼” 生成Case数据。
今年蔚来NIO IN 2024年智能技术日,其智能驾驶世界模型NWM也发布。该模型是一种智能驾驶世界模型,具有充分理解数据、长期演绎和管理的能力。它可以在100毫秒内推动216个可能的场景,并找到最佳决策。
而且对加速云计算率储备同时发力车端模型理想来说,VLA、世界模型和类似特斯拉的做法正在探索,VLM的初始思维能力是通过扩大端到端模型的体积来培养的。
值得一提的是,信息量也成为下一代端到端的竞争核心。元戎首席执行官周光认为,如果端到端的1.0交付达到1万台,效果会相当不错。真正做VLA,10万台可能只是入门券,看谁能更快达到10万台的交付规模。

当然,目前还没有统一的答案,不管是从云降维到车,还是车升维到云。然而,我们不能回避的是,对计算率的要求越来越高,成本也越来越高。能否留在牌桌上是最大的问题。
没有,特斯拉的FSD V13版本已经出来了,马斯克说技能提升了500~1000%。所以,每个人都必须继续下去。
本文来自微信公众号“C次元”,作者:王小西,责编:北岸,编辑:王越,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




