火爆的VLA，华为为何不用？

2025-09-05

智能驾驶发展路径如今已走到分歧路口。

从去年起，VLA成为智驾行业频繁提及的词汇。理想、小鹏、元戎启行等车企或供应商纷纷押注VLA技术路线，还相继推出了量产和Demo产品。

而另一边，蔚来基于“世界模型”量产了最新的NOP+，华为则发布了基于WEWA架构的ADS 4，更强调WA（World Model Action）模型。

华为智能驾驶解决方案产品线总裁李文广和华为车BU CEO靳玉志甚至公开表示华为不会采用VLA的技术路线，还对L（Language Model）在智驾技术上的应用提出了质疑。

于是我们看到，VLA、NWM、WEWA等技术词汇众多，它们之间有何区别？哪种方案才是正确的呢？

大热的VLA究竟是什么

最近大家可能看到很多基于VLA打造的智驾产品评测，其中一个容易感知的功能是“语音控车”，比如你可以直接告诉车你的意图，像左转、右转或者靠边停车等。

例如理想智驾将其包装成专属司机，你能用语音控制车辆行驶，屏幕上反馈的文字也直观展示了车辆的行为，增强了交互性。

但这并非VLA最核心的能力，VLA也不是语音控车的必要条件。

早在2021年，小鹏就可以通过语音“使唤”辅助驾驶变道超车。

同样，你在桌面HMI上看到的车辆推理过程也不是VLA的核心卖点，这只是厂商把因果推理展示给你看，也算是一种交互。

语音输入和语言输出都不是VLA的核心能力。

元戎启行的周光称：“语音控车只是VLA的基础能力，最难的是思维链（Chain of Thought, CoT）和长时序推理，这才是VLA真正的核心能力。”

同样，识别车外的特殊交通识别指示牌也不是VLA独有的能力。

那么，VLA的具体作用是什么，为何还有这么多研发自动驾驶的人押注这条路线呢？

VLA中的V指感知、A是执行，中间的L是语言模型（Language Model）。V负责感知环境、A负责动作执行，中间的L类似于“中台”，将V感知的内容转译成A执行的规划和决策。

L转译的内容是自然语言，比如它看到前方有路口，能以自然语言表达感知内容，再结合车辆状态，做出行动规划和决策给A。

所以，VLA具有很好的可解释性。

第二，正如周光所说，VLA具有基于思维链（COT）的推理能力。这里引用理想自动驾驶研发负责人郎咸朋博士的话更直观：“（VLA）真正发挥作用的是背后推理的长思维链。如果没有强大的L，再好的V和A都无法发挥出来。这跟人与动物的区别很相似。论视觉能力人比不过鹰，论行动速度比不过猎豹，但人之所以能称霸地球，靠的是强大的认知和理解能力，而这个认知和理解能力就来自于人类特有的语言能力。”

但VLA的弊端也较明显，既然语言模型要将看到的内容转述为语言并为决策服务，就涉及一个挑战——语言表述的模糊性与空间对齐问题。