特斯拉、华为与新势力的智驾世界模型之争
智驾圈围绕“世界模型”展开了激烈的争论。
“世界模型”(World Model)让高端智驾概念变得复杂。像WM、WEWA、VLM、VLA这些概念,很多人难以分清。

“端到端”大模型火了之后,“世界模型”出现,引发了一系列问题,比如怎样才算真正的“世界模型”,它与VLA又有什么关系。
最近有人“打假”。8月27日,何小鹏在全新小鹏P7发布会后群访时称,“不知道中国有哪些友商真正做出VLA而不是做成一个变形的VLA,我现在所看到的部分公司,是做一个嫁接的VLA,从我所了解的信息来看,中国把VLA真正做出来的,只有我们一家”。此前宣布VLA量产上车的只有理想。
同一天,华为智能汽车解决方案BU CEO靳玉志表示,“我们不会走向VLA的路径。我们认为这样的路径看似取巧,其实并不是走向真正自动驾驶的路径”。原因是华为更看重WA(World Action),省掉Language环节,直接通过Vision信息输入控车。

那么,小鹏为何炮轰友商的VLA,华为又为何否定VLA呢?
在车端,在云端?
先说说VLA(视觉 - 语言 - 行为大模型)。在VLA火之前,端到端+VLM是智驾行业主流技术方案之一,VLA是其技术进化形态,解决了一些局限性,且在一定程度上依赖端到端+VLM的技术积累。
不过,VLA空间感知能力弱,这也是华为省掉Language环节的原因,华为选择了WA。但元戎启行支持VLA,其CEO周光称“VLA模型的下限已超过端到端的上限”,还指出语音控车只是基础能力,思维链和长时序推理才是核心。

小鹏发布的全新P7车型硬件配置大幅升级,搭载三颗图灵芯片,计划9月通过OTA上车VLA。而理想在车端用快慢双系统,快系统为端到端E2E,慢系统的VLM部署参数为22亿。后来,理想在端到端 + VLM基础上升级,要实现MindVLA智驾算法模型量产上车,其所谓的基座模型即世界模型,部署在云端。
小鹏对车端搞VLA嗤之以鼻,认为参数量不够。小鹏汽车自动驾驶副总裁李力耘表示,车端“端到端”模型小,很多东西学不进去,而云端大模型能让智能“涌现”。此前,小鹏就表示正在研发720亿参数的“小鹏世界基座模型”,通过云端蒸馏小模型的方式部署到车端。

李力耘还说,“先通过最简单的模型、最纯粹的架构、最海量的数据,达到能力的涌现,这是我们最大的不一样”。其实,VLA和世界模型都处于尝试和试错阶段,现在的争论本质上是博弈。地平线相关负责人认为,不管是端到端加VLM、VLA还是World Model,本质都是端到端,国内过于强调新理念和概念。
“外挂”的对与错
“世界模型”概念由特斯拉的马斯克提出。其作用是为实现全球路况自动驾驶,在感知和决策中间嵌入AI大模型,构建虚拟环境进行学习和验证。做法是将真实世界数据转化为虚拟环境,再通过虚拟环境验证和优化系统能力。

国内蔚来首先提出世界模型概念。2024年蔚来宣布智驾从“感知驱动”转入“认知驱动”,其世界模型想在车端构建平行世界引擎,采用云端训练 + 车端推理双架构,跳过语言中间层,直接生成控制指令。

专业说法是,世界模型是视频生成加prompt控制,视频生成有四大类型。蔚来设想“无需人工标注”,将“感知 - 决策 - 控制”整合为统一生成式模型,但对车端算力需求极高,实时优化问题未完全解决,直到2025年5月底NWM才全量推送。
华为的WEWA模型和蔚来原理类似,云端的WE相当于“AI驾校”,车端的WA是“AI驾驶大脑”。华为WA总参数规模相当于80亿参数模型,实际激活等效20亿参数模型的算力负担,车端算力消耗降低75%。

生成式世界模型用于解决智驾数据难题,通过生成Corner Case数据,让智驾系统在虚拟环境中优化感知和决策能力,需要车端和云端共同作用。地平线相关市场负责人更看好World Model,认为新技术采纳要看产品收益,评判标准是方法在产品上的收益高低。
本文来自微信公众号“C次元”,作者:王小西,责编:北岸,编辑:王越,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




