焦点分析|理想的“端到端”:比行业更进一步,比特斯拉更少一步
文丨李安琪
编辑丨李勤
尽管特斯拉从未公开过FSD。 v12版本的技术法术,但是国内的确掀起了“端到端”自动驾驶的热潮。
理想的汽车,作为智驾追赶者,也是如此。七月五日,理想首次公开了其端到端自动驾驶技术结构。
该结构主要由三部分组成:端到端模型、VLM视觉语言模型和世界模型。同时,理想也开启了早鸟测试计划的新结构方案。
有业内人士指出,理想策略的方案比华为和小鹏的分段端到端方案更激进,可以看作是分段端到端的下一站。“从传感器输入到行驶轨迹导出只有一个模型。”理想智能驾驶技术R&D负责人贾鹏在新闻发布会上介绍。
此外,在新技术结构方案中,理想还融合了视觉语言模型和世界模型,帮助智能驾驶处理复杂的市政道路挑战,以及端到端方案的检测和验证。
理想智能驾驶负责人郎咸朋在社交平台上表示,端到端方案从去年下半年开始在内部孵化并启动预研,目前已完成模型原型验证和实车部署。
据36Kr介绍,目前理想在北京建立了一支超过300人的R&D团队进行封闭式发展,预计年内取得阶段性成果。
很多业内人士表示,智能驾驶行业的技术路径转化太快。去年行业主流方案是轻高精度地图的城市智能驾驶,今年将追求端到端。这也是汽车公司智能驾驶团队的研发问题。上一代方案还没有完全落地,下一代方案又来了。
但是在技术切换的间隙,也给了过去投资智驾晚的玩家一个赶上的机会,比如理想。至少在端到端方案中,理想和同行站在了类似的起跑线上。
比特斯拉后退一步,比“分段端到端”更进一步。
端到端自动驾驶计划首先由特斯拉驱动。智能驾驶系统可以在给AI神经网络足够多、高质量的数据的前提下,独立学习人类的驾驶模式。用特斯拉的话来说,“端到端”就是“输入图像,导出驾驶指令”。
与传统的智能驾驶方案相比,端到端的技术天花板更高。过去的智能驾驶方案是基于工程师制定的规则,依靠感知、决策、规划等模块的配合来实现智能驾驶。
但是每个模块都是相互独立的,模块之间的信息传输接口是由工程师定义的,导致信息流通的缺乏和偏差。一方面影响整个方案的效果,另一方面依靠人力来应对无尽的复印件。 case,不是长期的计划。
端到端看起来像一剂良药。特斯拉FSD v12还依靠端到端方案,杀死四方。华为,小鹏,蔚来,Momenta、商汤、元戎启动等,都试图跟上特斯拉的端到端。
而且作为国内首家公开端到端技术规范的汽车企业,理想的方案也值得分析和借鉴。
理想提出的端到端One Model“结构,输入端是传感器信息,输出端是行驶轨迹。然而,这种想法并不理想和独特。此前,商汤绝影提出的端到端自动驾驶方案UniAD也有类似的想法,该模型还获得了2023年全球顶级计算机视觉大会CVPR最佳论文奖。
理想情况下,由于中间没有规则干预,端到端模型在信息传输、推理计算、模型迭代等方面更具优势,可以具备更强的一般阻碍物理解、超视距导航、道路结构理解和更拟人化的路径规划能力。

从技术结构来看,理想比华为和小鹏的分段端到端更近一步。此前,华为提出的端到端方案仍然包括感知网络和预决策策划网络。小鹏的端到端方案分为神经网络感知XNet、控制XPlanner大模型 三段大语言模型XBrain。
但有业内技术人员告诉36氪,One Model计划的练习也是一个很大的挑战。“在训练控制之前,我们会假设感知模块是完美的。如果两者都是单独训练,出了问题很容易定位。但是端到端的方案是感知和计划一起训练,训练后容易出现负优化。”
与特斯拉所说的“输入图像、导出控制”的端到端方案相比,理想的方案显然少了一步。
目前,在中国,每个家庭的端到端思维最多从感知端到预测决策端,最终的控制和执行模块仍然是由工程师的手写规则决定的。
视觉语言模型,帮助智能驾驶了解世界
理想的端到端方案,更有趣的区域在于提出快速思考和慢速思考。这主要是受到诺贝尔获得者丹尼尔·卡尼曼的“快慢系统理论”的启发。
从理想的角度来看,快速系统,也就是系统1,善于处理简单的任务,更像是人类基于经验和习惯形成的直觉,足以应对开车时95%的常规场景。
慢系统,即系统2,是人类通过对逻辑判断、复杂分析和计算能力的更深入的理解和学习,在驾驶车辆时用于解决复杂甚至未知的交通场景,约占日常驾驶的5%。两个系统可以保证大多数场景下的高效率和少数场景下的高上限。

借鉴这一理论,理想汽车打造了自动驾驶技术架构。系统1从端到端模型实现,实现快速响应。端到端模型接收传感器输入,直接导出行驶轨迹控制车辆。
该系统2由VLM视觉语言模型实现。接收传感器输入后,通过逻辑思维将决策信息导出给系统1。由双系统组成的自动驾驶能力也用世界模型来练习和验证云。
理想情况下,VLM模型对物理世界复杂的交通环境有很强的理解能力。不仅可以识别路面平整度、光源等环境信息;它还具有更强的理解导航地图的能力,可以配合汽车系统调整导航;还可以了解复杂的交通法规,如公交车道、潮汐车道、分时限行等。,并在驾驶过程中做出合理的决定。
比如车辆前面遇到坑洼路面时,系统2会给出具体的驾驶建议,将车速从40公里/小时降低到32公里/小时。XBrain,一个小鹏的大语言模型,也有类似的能力,可以识别待转区、潮汐车道、特殊车道、路牌等指令。
理想的VLM模型作为视觉语言模型,参数达到22亿。当然,这是无法与ChatGPT等大型语言模型的数百亿参数相比的。
但是理想希望将端到端 VLM双系统同时部署在汽车端芯片上。为将双系统部署到汽车上,理想智能驾驶高级算法专家詹邈也表示,最早的VLM模型在汽车端推理时间长达4.1秒,经过不断优化,目前整体推理性能已提升13倍,推理时间仅为0.3秒。
目前,只有特斯拉的HW3.0芯片和英伟达的Orin是行业主流的智能驾驶芯片,已经量产,可以支持端到端策略,理想搭载英伟达Orin。然而,一些业内人士告诉36Kr:“像理想这样的延迟,20亿级模型的参数相对极限。如果你想在后续获得更大的模型,你可能需要Thor(英伟达的下一代芯片,计算能力超过1000Tops)。”
此外,理想还介绍了端到端策略的测试和验证方法。理想情况下,过去行业主要通过虚拟模拟和重建模拟来对智能驾驶进行模拟测试。随着生成式AI的出现,生成式仿真正成为智能驾驶行业的一大趋势。
理想结合了两种技术路径:重建模拟和生成模拟,为端到端的测试验证构建了世界模型。理想来说,重建和生成两者结合构建的场景,可以为自动驾驶系统能力的学习和检测创造更好的虚拟环境。
然而,理想的端到端 VLM计划很难真正立即交付给客户。7月份,理想的将推送给客户仍然是一个基于分段端到端的无图NOA计划,可以在全国范围内打开。
目前,国内高级智能驾驶面临商业和技术的多重挑战。一方面是有序推进大规模智能驾驶体验,保证用户口碑;另一方面是跟上端到端等技术浪潮。
这就要求汽车公司的智能驾驶团队在保证用户体验的同时,具有很强的工程落地和技术判断力,不断追求前沿技术。这对于华为、小鹏、蔚来、一批智能驾驶供应商来说都是一个挑战。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




