蔚小理华VS地绝元魔,谁是端到端大模型执牛耳者?
在自动驾驶领域,特斯拉提出的端到端概念再次引起轩然大波。现在,国内蔚小理华、地绝元魔等公司已经在端到端打了几百回合。端到端也加速了行业的快速发展和清理。在行业方面,余凯和曹旭东都认为,凭借端到端技术,自动驾驶将在3-5年内迎来大爆发。在企业方面,市场也在加速清算起步较晚的公司。Momenta疯狂下单,元戎开始获得高额融资,说明了这一点。

在这个时候,我们需要对端到端有一些清醒的认识:端到端到底走了哪一步?目前这项技术的执牛耳者是谁?
根据当前企业公布的情况,我们可以整理出一些基本信息:
1、在端到端落地时,主机厂整体落后于供应商;
2、在技术先进性方面,主机厂也落后于供应商;
3、除了端到端,企业应该有自己的know。-how。
端到端落地,供应商更快一步一个脚印
在这波新技术浪潮中,抛开特斯拉的引导作用不谈,国内供应商整体走在原始设备制造商面前。
在国内原始设备制造商中,理想最早在公共场所提出端到端的概念。与原始设备制造商在端到端突然发现新大陆的惊喜相比,供应商已经在端到端的暗潮中涌动。
2023年,Unified作为地平线的第一作者提出 Autonomous Driving(UniAD),首次为自动驾驶端到端通用网络结构的设想提供了具体的范式,并获得了CVPR 2023 最佳论文。
根据宣传规格,商汤绝影是中国第一家提端到端的智能驾驶公司。2022 年底,商汤科技推出了自动驾驶通用模型,这是行业内第一个集感知决策于一体的。 UniAD,2023 年,UniAD 获 CVPR 最佳论文奖。
目前整个行业从端到端基本上有三个想法:一是非常传统的两边式端到端,感知一个模型,控制和预测一个模型,这是目前大多数企业都在采用的解决方案;另一种是三网合一模式,感知和控制是两种模式,但它们相互交叉,相互交集,加上一个安全的网络,典型的代表是小鹏、华为和官方称之为“三网合一”;三是完全一段式,对模型进行感知、监控和预测。在官方传播规范中,现在只有元戎启动和Momenta和商汤绝影使用了这种结构。
虽然汽车公司一直强调全栈自主研发的可控性,但面对巨大的生存危机感,供应商比原始设备制造商表现出更强的内生力,这也体现在端到端的落地上。事实上,元戎启动于2023年中旬通过端到端量产了城市领先的高级智能驾驶,并邀请公司进行测试。2024年,元戎还通过激进的技术路线获得了长城汽车1亿美元的战略投资。
在一次采访中,曹旭东还表示,Momenta已于2023年4月落地两段端到端,甚至再往前追溯,2019年开始研发规控端到端,但当时并没有两段端到端的概念,也没有对外提及,今年已转为一段式。随着技术的不断进化,Momenta已经成为智能驾驶供应商接单的疯子。目前,合作的汽车公司包括SAIC、广汽、比亚迪、丰田、日产、奔驰等国内外汽车公司。

此外,包括地平线、商汤绝影、博世等供应商在内的供应商也明确表示,将于2025年量产一段式端到端无图NOA方案。其中,大部分将集中在明年上半年。
相对而言,主机厂在这方面比供应商要落后。
小鹏选择在520当天推送两个端到端架构,可以算是抢了一个原始设备制造商的首发宣传口径;10月,理想将“端到端”推送给所有用户。 VLM“双系统,根据7月份发布会的描述,应该属于分段端到端;今年下半年,华为还推出了分段端到端ADS3.0版本。
根据最新消息,蔚来将于2025年4月推送分段端到端结构。据《36Kr汽车》报道,华为今年7月派出了一批人来开发One。 Model大模型,并将于明年推出基于一段式端到端的ADS。 智驾系统4.0。
此处还有一个有趣的小插曲,尽管采用了多种模式,但小鹏汽车坚持认为自己采用了一段式的端到端结构。小鹏汽车智驾负责人李力耕认为,虽然选择了3个网络,但是小鹏的系统属于One。 Model端到端,“这(小鹏的智能驾驶系统)不是一个分段架构。因为三个网络是相互重叠和重叠的,他们在网络原生方面有很多相互交流的部分,是一个既有重点,又有预训练,可以单独联合训练的网络。”
“分段式是先完成的,”小鹏自动驾驶商品高级总监袁婷婷解释说。 A,A 的箭头指向 B,B 的箭头指向 C。我们现在做的三网合一模型有三个圆,其实是藕合在一起的,既有重叠的部分,也有分离的部分,不是每个人都做一个网。所以不是分段思维。"
但是也有技术人员认为,拆开一个完整的模型,加入rule。-based,从逻辑上讲,应属于分段结构。
当然,特斯拉目前的技术状态是汽车公司代表最有异议的。尽管到目前为止,特斯拉还没有公布其技术细节,但许多人已经从现有的信息中发现了一些蛛丝马迹。特斯拉全球副总裁陶琳最近在微博上透露,特斯拉目前的大模型已经达到了“光子进入,决定”的效果。考虑到分段带来的信息损失,很多人推断特斯拉实际上已经实现了一个从一个到一个的大模型,大参数非常大。

端到端一段式两段式哪个更好?
另一个有争议的点是端到端两段式和一段式的优缺点,保守派和激进派各持己见。保守主义者认为端到端是不可解释的,存在上限高、下限低的问题,必须采取一定的措施,比如加入大量的rule-based规则。激进主义者认为一段端到端的结构更完整,信息损失更低。
端到端影响很大,很多车企被迫基于端到端调整组织结构。传统的规则算法是否还有生存空间,在一年的时间里,双方都在激烈地“战斗”。
李力耕认为,端到端中间的某些部分可能无法解释。小鹏通过 “三网合一” 通过调整结构,可以看到问题的具体方面。
然而,技术激进的商人汤绝影认为,两个模型之间的信息传递和两个阶段的感知和决策之间仍然会有过滤和丢失。“两阶段”端到端方案降低了难度,也降低了能力上限。
通过rule-based为他兜底,整个处理端到端下限较低的常规思路。但是曹旭东觉得,rule-based根本不能给端到端兜底,把规则比作小脑,端到端比作大脑,小脑很难给大脑兜底,兜不住。因为rule-based可以考虑的情况有限,而corner case的场景无穷无尽。所以Momenta的解题思路就是一个模型走到最后,然后通过数据训练来保证系统能力。
曹旭东说,虽然Momenta会有少量的规则算法,但它不是用来覆盖端到端的。虽然现在或多或少都会有规则,但随着AI技术的不断演变,整个市场都在朝着“去规则化”和端到端的方向演变。
除了端到端,智驾企业还得有更多的know-how
端到端优势明显,但不是自动驾驶的终极答案,也不代表端到端一切都会好的。甚至从大多数企业的反馈来看,端到端可能只是前提。
元戎首席执行官周光介绍了他最新的自动驾驶VLA模型,将端到端和文本视觉语言模型结合在一起。周光说,VLA是目前最先进的自动驾驶架构。
有趣的是,这种说法得到了理想汽车的肯定,尽管今年理想一直在大力宣传“端到端” VLM”,但是他自己也承认,VLA架构确实更好,而且理想本身也在默默地开发VLA架构。
Momenta创造了长记忆的逻辑。根据曹旭东的解释,短记忆可以理解为一个数据筛选器,将大量数据扔进去,然后选择高质量、对系统有益的“黄金数据”输入长记忆。长记忆就像一个存储器,存储这些高质量的数据,供系统随时调用。两种记忆形成一个循环神经网络,形成一个数据飞轮。这和理想的速度思考完全是两个逻辑。
小鹏汽车强调大模型的优势,大概意味着云训练更多的模型,然后蒸馏到汽车上。小鹏认为自动驾驶的长尾问题只能通过大模型来解决,但很多自动驾驶公司只能采用单一的模型,没有云芯片和信息资源。
端到端可以很好地处理常规场景,但无法处理复杂罕见的驾驶场景,还需要一种视觉语言多模式大模式。(Large Vision-Language Models,LVLM),与端到端模型相辅相成,充当驾驶决策的“大脑”。
注意,这里其实包含了两个模型,以及理想的“端到端”。 VLM“有点像。然而,地平线的思路是通过Senna系统连接这两种模型,重点解决端到端模型鲁棒性差、泛化性弱的问题。
Senna主要有三个优点:
1、模型一层一层推进,大模型生成决策指令,具体轨迹通过端到端模型生成。此外,它还通过图像token压缩和环顾prompt提高了多模态模型对驾驶场景的认知。
2、数据问答。面向布局的驾驶问答数据大规模自动注明,包括场景描述、交通参与者行为预测、交通信号识别、自动驾驶决策等。
3、三级大模型训练策略。它不仅提高了Senna在驾驶场景中的表现,而且有效地保留了它的常识知识,以避免出现崩溃的问题。
这是地平线原有的“大模型高维驾驶决策——端到端低维轨迹规划”的新驾驶模式。在这里,我的理解应该是大模型负责复杂的场景,端到端负责常规场景。

在汽车公司形成基本共识的同时,新的问题也在不断出现:模型类型、尺寸、参数、规则算法是否有必要等。,这需要时间来回答。然而,一个不争的事实是, 在新一轮的端到端竞争中,汽车公司普遍落后于供应商。
本文来自微信公众号“圆周智行”,作者:圆周智行,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




