马斯克光速访华,端到端卷起飓风

2024-05-05

智能化驾驶无疑是一个热衷于发明新词的行业。去年流行的是“Transfomer BEV”,去年爆红的是“大模型”、今年轮到“端到端”了,“无图”。


不管是站在台前的蔚小理华,还是站在幕后的元戎启行,Momenta、商汤绝影,地平线,今年都在推广智能驾驶的端到端方案,希望在如火如荼的高级智能驾驶比赛中掌握更强大的技术武器。


作为世界上对端到端最活跃的汽车公司,特斯拉已经开始了一年多的自动驾驶研发,并于今年3月向北美订阅用户全面推送FSD。 V12。四月二十八日,马斯克紧急飞往北京,外界流传其为FSD进入中国,这让人们看到了使用。FSD在端到端战略中加速进入华华的概率。


和过去一样,在中国智能驾驶行业首席鼓励师马一龙的访问下,国内智能驾驶行业的热情会越来越高,一个新的行业变化正在酝酿。


01 为什么纷纷端到端


为什么2024年国内智驾行业集体喊出端到端?


一个直观的答案是,因为特斯拉做到了。去年年初,马斯克在推特上透露,特斯拉已经开始研发端到端自动驾驶计划。8月,马斯克首次直播FSD。 V12,系统所呈现的类人驾驶效果引发热议:自动驾驶看起来真的很有希望(尽管半途而废)。


FSD 类人操作V12:前面的车道已经拥挤,那么不要开过去堵住路口。


但是,更接近现实的答案是,端到端是许多企业在进行了大量的实践、试错之后,逐步认同的一种方法。或假如智能驾驶的技术问题主要是AI问题,那么端到端就是一个通用的解决方案。


端到端不是一个全新的概念。它是人工智能领域广泛使用的一种方法。比如在各种AI翻译和语音转文本应用中,几乎所有的端到端都使用:原始数据被送入神经网络,经过一系列计算后直接给出最终结果。


在智能驾驶领域,行业对端到端的探索并不少见。比如英伟达和Waymo都成立了团队进行预研,Comma等美国创业公司.ai和Drive.ai,然后选择All in端到端。然而,几年前,计算率和算法性能仍然很低。基于这一研发的神经网络规模和能力有限,自动驾驶任务高度复杂,端到端方案性能不佳。


所以,在实际量产中,行业前几年更为普遍的做法是分而治之:


将智能驾驶技术栈切割成多个模块,每个模块都有独立的算法(有些模块使用神经网络,有些模块使用传统算法),所有模块前后接力,合作完成智能驾驶任务。到目前为止,由于任务相对简单,市场上大多数L2及以下的智能驾驶仍然使用这种技术栈,并且运行良好。


但问题是,当企业的目标是实现高级智能驾驶甚至自动驾驶时,这种模块化方法是不够的——一个关键原因是“中间人”太多。


在绝大多数地球人都参加过的“传话游戏”中,必然会发生一种情况,当参与游戏的演讲者越多,最后一个人说的结果和最初传下来的话就越离谱。


就像这样


这个问题和智能驾驶模块化技术栈共同存在:如果信息流转的层次越多,链接传达的时间越长,扭曲的情况就越严重。人类将充分发挥主观能动性的随机想象力,而智能驾驶的各个模块不仅会损害信息的压缩、传递和积累偏差,还会面临并行模块信息相互争斗的问题。


面对人员复杂、难以合作、效率低下的问题,一个企业通常会精简组织,支付4.5倍的工资,招募3个能力强的人做6个人的工作。


智能驾驶技术栈也发生了同样的事情。汽车公司和智能驾驶公司不断整合智能驾驶技术栈原有的相对细小的模块,包装成三个模块:感知预测、决策规划和控制执行(部分公司将预测拆除,形成四个模块)。


但是,做到这一步其实只是让高级智驾能够使用,难题依然层出不穷。


在大多数已经上市的智能驾驶模式的决策规划模块中,有大量的人类工程师手写的if else规则应对不同的场景。在不复杂的场景中,这些规则可以很好地运行,但当场景高度复杂时,例如在城市智能驾驶时,它们依赖if else难以准确地描述和处理场景,规则和规则之间也存在矛盾。


就像一个刚拿到证书不久,反应总会慢一拍的新手,经常在心里默念交通规则开车,交通少的时候还能应付,早晚高峰的时候就露出了真面目。很多智能驾驶车型鲁莽、迟钝、机械,与此密不可分。


针对这种情况,国内智能驾驶系统项目进展最高的公司正在做一项工作:在决策规划模块中,手写规则逐渐被神经网络取代,人工无法用数据驱动处理的弊端。


例如华为在北 ADS在北京车展期间发布。 3.0,用一整个PDP神经网络代替了原本有很多手写规则的预测决策规划模块;5月份小鹏将推送的天玑系统也将在相应的模块中引入神经网络模型Xplanner。


但是这一步还是不够好。由于感知神经网络和决策策划神经网络仍然相对独立,任务不同,两者之间仍然有人工设计的通信接口,并且有一个信息筛选过程,这自然意味着有损压缩的数据。——就像一名乘客负责看路一样,指挥着蒙着眼睛的司机怎么开车。


理论上,充分利用信息的最佳解决方案是取消所有“中间人”,让一个庞大的神经网络负责整个驾驶任务,这就是端到端的智能驾驶。



智能驾驶技术栈的演变方向


而且目前,智驾行业正处于激烈的城市NOA开城竞赛中。以人为模板,如果你想在全国范围内驾驶智能驾驶系统,你需要的不是几个人的合作,而是一个足够强大的大脑,在正确理解环境后,指挥你的腿和脚做出正确的动作。


端到端就是建立这个AI大脑的关键路径。这个问题是智驾行业今年对它进行前仆后继的主要原因。


02 到底哪一端到哪一端


有点开心的是,在这种端到端的热潮中,要么是因为中文历史悠久,要么是因为一些企业有意为之。虽然不同的企业异口同声地谈论端到端,但他们表达的可能完全不一样。


例如华为在非智驾领域谈端到端时,表达了“从客户端到客户端”的过程。


当一些智能驾驶算法供应商谈到感知端到端时,他们的意思实际上是“将几个感知模块原本负责不同任务的神经网络整合成一个”,而不是完全实现端到端的智能驾驶。


一些汽车公司在宣传端到端时,实际做的工作是“将智驾技术栈的模块合并一些”。


事实上,严格来说,端到端自动驾驶是指传感器数据进入神经网络后,方向盘、油门、刹车等执行器的控制指令直接导出。


端到端智驾严格意义上的端到端智驾。


但是,稍微广泛一点的定义目前也是公认的:汽车的控制模块不需要改造成神经网络,只要 一种神经网络接管感知和决策方案,可以导出正确的行驶轨迹,也可以称为端到端。图片 森未来CTO王乃岩近日发文呼吁,行业要避免陷入狭义端到端的误区,因为这对智驾量产不利。


端到端具有广泛的意义


元军CEO周光也有类似的看法,他对此解释如下:


与感知和决策规划相比,汽车的控制自由度更低,难度更小。经过长期发展,传统算法已经有了非常成熟的解决方案。当传统算法能够准确控制车辆按照轨道行驶时,将其改造成神经网络并没有明显的好处,反而可能会带来不同汽车的适应问题。


除了这两个狭义和广义的端到端之外,一些企业试图将端到端定义为“将感知模块和决策策划模块转化为感知神经网络和决策策划神经网络”。


声称自己是端到端(其实不是)


与传统的模块化结构相比,用两个神经网络处理智能驾驶的思路确实更先进,可以更好地实现数据驱动。然而,如上所述,两个神经网络之间仍然有一个人工设计数据结构的界面,这个中间人的存在必然伴随着信息损失,这与端到端“充分利用信息”的思维存在差距。


由两个大神经网络驱动的智能驾驶只能算是在感知和决策策划阶段完成了自己的端到端,在这两个环节中可以获得自己的局部最优解,但智能驾驶需要的是全局最优解。


此外,还有各种各样的端到端则有些像汽车公司的自研名单,任何一款车都可以是最畅销的车型,只要定义的范围足够小,任何一个企业都可以掌握一定的端到端。


事实上,类似的重新定义已经在智能驾驶(高精度地图)竞赛中广泛上演。很多公司声称自己的计划没有图片,但实际上,他们在导航地图上添加补丁、堆叠先验和定制图层,更像是变相的高精度地图。


真正的“无图”应该是只选择导航电子地图(没有地图是不可能的)。业内只有少数供应商能够真正提供无图智能驾驶计划。


以前不同的企业对无图,现在对端到端千差万别的理解与应用的不同,反映出他们不同的初衷和目的地。


有些企业的想法比较现实,对端到端的态度是“万一成功”。跟进的主要目的是避免智能驾驶技术落后,进而影响汽车销售或客户订单丢失。甚至有些公司只是希望在宣传上不落后,在实际的科研开发中与端到端无关。


其他公司更相信真正的端到端,因为它不仅可以让智能驾驶的性能更好,还可以通过智能驾驶的场景训练出一个AI大脑,一个人,一个通用的,可以感知和理解决策,可以帮助一个公司从一个简单的智能驾驶供应商成长为一个AI机器人企业,最终打造物理世界的通用人工智能。


在北京车展期间,元戎发布了DeepRouteep高级智能驾驶平台。 IO,这个方案不依赖高精度地图,配备端到端模型,今年会登上各种量产智能驾驶车型。这将是中国第一批上车的完整端到端模型方案。


配备这一策略的智能驾驶车辆,在城市驾驶时展示了一些规则驱动的智能驾驶计划从未出现过的操作:比如发现自己在等红绿灯挡到右转后车时,主动向前移动。


这种技能看起来很普通,但只有人类司机掌握。类似的利他行为,是通用人工智能闪现的一丝火花。


03 变化将再次掀起


元戎启动是国内智驾行业的一种特殊存在。


它的传说在江湖上无处不在,工程师们传言它的智能驾驶技术水平可以和华为、Momenta等头部选手掰手腕;然而,它在江湖上并没有出现,因为没有一家汽车公司公开表示,他们的车型使用了元戎推出的量产技术规范。


造成这种情况的原因是,除了特斯拉等少数例外,大多数智能驾驶公司的资源和注意力都是有限的,很难在量产规模上领先,在先进技术上始终保持存在感。


元戎于2019年成立,拥有更多的技术基因和技术直觉。


其首席执行官周光早年率先提出了传感器“前结合”方案。2020年,公司确定了不依赖高精度地图的智能驾驶路线,并于去年年初发布。在过去的五年里,元戎开始坚持“先冲刺先进技术,再赋能智能驾驶量产”的节奏。


如果你在一个没有任何波澜的行业,选择这种策略的公司很可能会率先走出去。然而,智能驾驶是不同的。归根结底,这个行业的输赢是技术,而智能驾驶技术的变化强烈而迅速,而且越来越快。每一次技术更新都是洗牌行业格局的机会。


举例来说,十年前,智驾感知算法从过去的模式识别转变为神经网络,让Mobileye Tier-1的传统搭配不再强大,一批新兴算法公司和芯片公司崛起。


而且由于另一次更新力度超过了以往的技术迭代,端到端的加速,正带来这样一种影响:


本来智能驾驶行业表现出大局初步确定的景象。汽车公司要么建立自己的研发团队,要么已经找到了一个好的供应商。行业不愿意为量产进度较低的公司开放机会。


但是端到端延长了窗口期——绑定车企的供应商可能认为自己已经熬到了淘汰赛,但实际进展是预选赛刚打了前两轮,后面的赛程还是很长的,游戏规则也发生了很大的变化。在新的赛制下,起点被重新划分,情况再次复杂化。


计划已大量生产上车的智能驾驶供应商可以利用多个项目掌握大量数据,在数据需求方面具有数据优势。但由于软硬件的限制,已经上车的智能驾驶技术栈很可能无法升级为端到端。 在“落后”的旧平台上,企业要做大量的维护工作,才能达到最终目标。


像元戎启动这样掌握端到端战略的后发公司,虽然量产项目不多,但在技术栈上更接近终点。


去年8月,元戎启动将端到端模型部署到车辆端进行验证,因为在过去的技术栈中,已经为端到端的思路做好了准备,如前结合、无图、神经网络替代规则模块等。项目进展迅速,今年可以做好上车准备。此前,某科技大厂智能驾驶领军人物对国内端到端方案上车的预测节奏为2025年。


元军启动端到端智能驾驶计划,提前绕道可能开门的车辆


然而,即使端到端给元戎等企业带来了再次登上智能驾驶牌桌甚至进入第一梯队的机会,也不意味着在端到端冲刺后,战斗就会结束。


从周光的判断来看,端到端可能是智驾传统技术栈的结束,但只是AI。 2.0时代的开始。很长一段时间,人类司机很可能会和智能驾驶系统的人机一起驾驶,见证一个AI大脑的生长。


但这并不意味着人类司机应该长时间坐在打开智能驾驶系统的车内。那些让人感到安心,驾驶拟人化的智能驾驶,客户自然会用脚投票。


本文来自微信公众号“远川汽车评论”(ID:yuanchuanqiche),作者:远川汽车组,编辑:罗松松,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com