学习特斯拉做端到端,也许死得更快?

2024-07-06

去年八月,工作重心从特斯拉移开很久的马斯克,很少坐自己的车,在硅谷直播。


严格来说,直播的主角不是硅谷钢铁侠本人,也不是汽车,而是车辆配备的最新版本的智能驾驶软件。选择端到端架构的FSD。 V12 Beta。在他口中,FSD V12是一个神经网络包打一切,”photon-to-control“科技法术”(输入光子,导出驾驶指令)。


尽管在全球围观下,FSD V12首秀闯红灯,但国内一些车企紧急成立了端到端团队。一年后,端到端的风已经席卷了中国智能驾驶行业。


这次感动特斯拉渡河的集体运动,似乎向特斯拉开发Transfomerer致敬了几年。 BEV、OCC没有什么不同,但是难度和门槛越来越高。一些智能驾驶从业者坚信的价值和生存岗位也在经历分裂和重构。


01 "端到端就是scaling。 law”


就像过去几年智能驾驶领域的技术变革浪潮一样,端到端并不是什么新鲜事。除了ALVINN太老太简单之外,之前有两个著名的例子。



1988年卡耐基梅隆大学提出的ALVINN,端到端自动驾驶鼻祖


英伟达于2016年发表了一篇名字。 “End to End Learning for Self-Driving Cars“论文,用CNN构建了一套端到端自动驾驶计划。这篇引用了5000多次的论文在学术上有了很大的反响,但英伟达未来在与奔驰的自动驾驶合作中却无法避免。


由著名黑客Hotz于2016年创立的comma.Ai开源了端到端辅助驾驶计划Openpilot,计算平台采用了一款配备高通芯片的手机。尽管这个计划在2020年美国消费者报告的评估中获得了最高分,但是comma.ai不屑于设备的可靠性和功能安全性,还是让汽车公司不屑一顾。


近年来,在工业界,绝大多数智驾公司在量产时,都选择了另一条与端到端相对的路径:模块化。


模块化结构将智能驾驶系统拆解为多功能子模块,连接上下游模块,接力完成整个智能驾驶任务。随着技术的进步和经验的积累,这些模块不断被吸收和结合,“感知-规划-控制”三个模块逐渐形成。


智能驾驶的端到端和模块化方案


到目前为止,市场上绝大多数的智能驾驶系统都是人工和智能的混合系统:依靠神经网络感知和规划控制使用人类手动设计的算法(很少有公司融入一些神经网络)。这个系统的优点是有利于分工,也有利于分模块检查和处理bug。


但是问题是,模块化的智能驾驶系统在相对简单的驾驶任务中表现出色,但是面对复杂的驾驶任务,它的天花板肉眼可见。


在用户体验中,到2024年,智能驾驶仍然不够智能。即使是被称为遥遥领先的城市高级智能驾驶功能,在进入快速公路并通过大型路口时,仍然会有机械感和停机。


智能驾驶工程师没有时间与消费者共情,因为他们即将淹死在碎片化的任务海洋中。


在目前的混搭智能驾驶系统中,感知神经网络应该向下游控制模块提供目标级别的识别结果。这就需要感知模块工程师不断定义“路上值得关注的是什么”,不断在白名单中添加物体,训练神经网络识别它们。——


以前是车道线、红绿灯、汽车、行人、自行车,后来是各种小动物、拖着一棵树的卡车、撑着太阳伞的摩托车;未来可能是印在公交车上的董明珠和广告牌上的苏炳添。


更加可悲的是,模块化工程师要日复一日地写if,面对不同的场景。 else。事实上,规控工程师的工作并没有那么低级,在规控领域有很多传统算法可以概括各种场景。然而,这些算法的普遍性并不能满足现实的复杂性。在deadline的压力下,工程师们不得不对各种困难场景进行规则补丁。


遗憾的是,这样的规则越多,规则就越容易互相争斗,整个模块的可扩展性就越差。与此同时,困难的情况源源不断,工程师烧膏继续写if。 else,代表着智驾的规制提升为愚公移山式劳动密集型工作。


但是,从智能驾驶企业管理层的角度来看,要想在今天的智能驾驶比赛中获胜,就要在规控模块中堆积人力,尤其是人海战术,但投入产出率是不可持续的。比如华为BU的智能驾驶团队,规控部门有上千名工程师[1]。以相当保守的平均年薪50万元计算,这个部门的人工成本只有5亿元以上。华为ADS智能驾驶系统之前在终端的实际落地价是6000元。


随着这种进化,高级智驾有滑向三输的危险,即使是领先的特斯拉也是如此。但是到2022年底,Open AI一声炮响,给智驾带来端到端的振兴。


今年诞生的ChatGPT让一种AI方法论成为了一个显著的研究:大量吸收人类的文本信息,通过预测下一个字符(token)为了达到目的,让神经网络学习文字所蕴含的知识。


12月,特斯拉的智能驾驶工程师Dhaval Shroff 对马斯克来说,扔掉手写的规则,建立一个神经网络,让它看很多人类司机的驾驶视频,要求它导出正确的驾驶轨迹。在反复训练中,这个神经网络可能会获得类似于人类的驾驶知识。


作为世界上与OpenAI关系最深的人之一,马斯克立即指示这样做。


经过一年的研发,2024年1月,选择端到端架构的FSD。 V12向北美客户推送。这个版本号称使用了一个端到端的神经网络,消灭了30万行C。 代码。


端到端的作用当然不仅仅是取代程序员精心堆砌的屎山,在多个维度上,它表现出对传统模块化方式的超越。


在智能驾驶系统的信息传递中,感知不再被迫丢失信息以匹配控制的粒度。系统决策获得的参考信息更全面,更有可能实现全局最佳;


从实际体验来看,端到端的FSD更加拟人和流畅。何小鹏上个月刚刚发布了“同行CEO认证”。当他在加州体验FSD的最新版本时,他说FSD比作为加州的新手司机开得更好。


由于不依赖于人类定义的识别结果,人工标注各种物体和场景的工作量将进一步减少,因此在AI离不开的数据标记上;


然而,在疯狂的算法迭代速度中,由于控制模块已经成为一个神经网络,能够24小时工作的GPU将进行全马力训练,并将智能驾驶OTA的周期推至每周甚至每日更换;


就人工成本而言,理想汽车CEO李想的说法是,Cornerner的团队不再需要数千人来解决这个问题。 Case。


何小鹏对FSD大加赞赏 V12


毫不奇怪,端到端因此成为2024年中国智驾公司竞争的技术(有时更多的是宣传)制高点。


今年7月,华为和小鹏的两级端到端智能驾驶计划将推送给车主。理想情况下,蔚来正在加班,推动端到端下半年上车。Momenta、今年,元戎启动、商汤绝影的端到端方案也将陆续登上量产车。


国内一家智驾公司的高层评论,端到端就是Scaling。 Law。商汤绝影事业部总裁王晓刚表示,端到端是今天验证的唯一途径。


在端到端的结构下,智能驾驶将在人力密集型中逆向计算率密集型和数据密集型。智能驾驶有望真正走上创造奇迹的道路,这是近两年大语言模型的成功经验。


02 触摸特斯拉,就可以穿过端到端的河流?


ChatGPT诞生后,许多大大小小的公司都在摸着OpenAI渡河,大语言模型风云变幻,海外谷歌Gemini穷追不舍, 通过Llama,Meta建立了开源生态, 国内文心一言,通义千问,星火大模型,盘古大模型等等各领风骚。


如果端到端架起智能驾驶通向Scaling 理论上,Law的桥梁也会出现类似的创新成果迅速扩散的情况。


但是在辰韬资本日前举行的端到端研讨会上,光轮智能CEO、前蔚来模拟负责人谢晨泼了一盆冷水:摸着特斯拉前进,结果不一定是渡河,也可能是掉坑。


大型语言模型的局面演变,不宜直接应用于智驾。


大家都知道,人工智能的三个要素是算法、数据和算率。端到端很重要数据目前国内公司还没有看到特斯拉的尾灯。


不同于大语言模型可以在因特网上抓取大量的文字数据进行训练,端到端智驾所需的视频数据获取成本和难度极高。


此前,Nuplan是世界上最大的自动驾驶公开数据集,规模为1200小时,并非为端到端准备。国内上海AI lab 浦驾队收集了整个Youtube,最终建立了OpenDV-2K的2000小时数据集。



选择OpenDV,处理240 每个城市的驾驶数据


在端到端神经网络开发之初,特斯拉就向投喂了1000万只经过筛选的人类驾驶视频短片,即使以每段15秒计算,这也是超过40,000小时的超清视频。马斯克在2023年初透露了这些数据。


当时特斯拉每天可以进一步筛选的人驾视频以1600亿帧/天的速度增长,约148万小时。今天,大多数国内汽车公司的信息量比去年少了两三个数量级,更不用说智能驾驶供应商了。如果继续上传,仅仅这些数据的带宽和存储成本就足以拖垮一家小型智能驾驶企业。


问题不仅仅是数据数量,因为驾驶视频已经成为端到端系统的直接教师(监管信号),对视频数据的质量要求也在提高。


视频收集的触发机制是否合理,关键场景是否完整,是否收集了老司机而不是菜鸟的驾驶行为,视频数据是否充分多样化...每个细节都有自己的know。-how,有些特斯拉也没有得到妥善处理。


不久前, FSD在推特上解释了马斯克 V12.4.2延迟的原因是这个版本投入了大量需要接管的复杂场景数据进行练习和改进,但是简单场景的驾驶平顺性却落后了。这很容易出现在模型训练中毁灭性忘却,在再次训练之前,必须对神经网络采取一些权重固化措施。


算法工程师是中国最受欢迎的智能驾驶岗位,但端到端的竞争是数据驱动的竞争,数据团队的重要性会越来越明显。一家智能驾驶公司的R&D负责人认为,如果要转向端到端,国内智能驾驶数据团队最紧急的任务应该是补充闭环仿真能力,这是端到端低成本验证测试的关键。


类似于数据上的差异,国内智驾公司在算率肉眼可以看出储备与特斯拉的差距。


今年年底,特斯拉预计将拥有100exaflops云计算率。商汤的12eflops是国内相关公司纸面参数最高的,但分配给商汤的绝影用于智能驾驶神经网络训练的计算率尚不清楚。华为在智能驾驶投资方面最激进,今年智能驾驶训练的计算率刚刚达到3.5。eflops。


为了容纳H100正在建设的数据中心,特斯拉


计算率和数据的限制将对数据产生重大影响算法另外,这次特斯拉没有给后来的渡河者留下算法石头。


特斯拉在2021-2022年两次召开AI。 Day,公开了智能驾驶的一些技术细节和进展。虽然没有公开源代码,但这两次AI 事实上,Day已经起到了引领行业风向的作用,AI Transfomer在Day上提出的 如今,BEV架构和Occupancy占用网络已经成为高级智能驾驶的基石算法。


但是在2023年,马斯克意识到有竞争者在“逐帧研究PPT”之后停止了AI。 举办Day。这样就使得其它公司更难学习标杆。


在关键时刻,国内学术界提出的端到端自动驾驶模型UniAD获得了2023年CPVR最佳论文奖,为我国企业提供了参考方向。但UniAD是在开环验证系统和小规模样本数据下开发的,需要一定时间的工程改造和大规模的数据培训才能上车。


UniAD 算法结构


在包括但不限于算法、算率、数据等差距的约束下,国内智能驾驶公司对端到端的发展实际上还处于踩雷阶段。一旦他们太咄咄逼人(或者根本没有条件进步),就有翻车的风险。


所以智驾企业在对标特斯拉端到端时,往往会对两种不同的特斯拉进行比较:与今天的特斯拉相比,宣传上的实际施工进度与一年前或两年前的特斯拉相比。


03 整合神经网络,团队和行业也是如此。


作为中国智能驾驶项目进度最高的两家公司,小鹏和华为在端到端的比赛中并没有表现出智能驾驶城市对抗的激进。他们的端到端技术规范采用两段式,通过感知神经网络与规划神经网络连接。


华为ADS 两段式端到端3.0


在业内一些人眼里,这不是经典意义上的端到端,更像是完成了智能驾驶算法的神经网络改造。与两家公司的智能驾驶员不同,这种“两级端到端”是一种过渡形式,可能存在类似于传统方案的信息损失问题。但对计算能力和数据要求较低,量产进步较快,更方便追溯和处理智能驾驶系统问题。


另外一个可能的原因是,智驾企业转向端到端,必须经过人员和组织结构的调整,历史负担越重,调整阻力越大。


在这个过程中,一个不容忽视的矛盾是,在理论上,对智能驾驶的表现负责的是控制负责人。然而,由于技术分工的发展,感知负责人通常在大多数智能驾驶企业中更了解神经网络。在端到端的趋势下,以传统算法为核心工作的控制部门很容易整合、降低或升级。


特斯拉改为端到端方案后,原控制负责人选择辞职。上个月,蔚来智能驾驶部门感知与控制团队合并为大型团队,团队负责人为原感知负责人彭超[2]。与前两者不同,小鹏智能驾驶负责人李力耕曾经是控制团队的负责人,而华为拥有国内智能驾驶企业中最大、成绩最突出的控制部门。


但从长远来看,实现神经网络处理高级智能驾驶是行业共识,无论是大语言模型的成功案例,还是智能驾驶现实的商业压力。曾为感知神经网络导出兜底的控制工程师,被神经网络端掉饭碗的可能性很大。


只是这个过程并没有那么强烈。


一位智加首席科学家崔迪潇同意,端到端将同时放大智能驾驶系统的上限和下限,由于这是一种神经网络黑盒,在获得更高上限的过程中,转移了一些传统模块方案的可解释性。


如何在智能驾驶系统中保留可解释性,将不可逾越的规则(如不闯红灯)表征到神经网络中,保证端到端能够安全应用和进化,将是控制工程师的重要课题。


它将有点像为混合动力汽车打造一个混合动力专用发动机发动机工程师,其核心任务是服务那些最终会消灭他岗位的电机和电池。


商汤绝影总裁王晓刚表示,目前智能驾驶行业没有纯神经网络的量产计划。为了安全起见,要么选择端到端与传统计划并行,要么在端到端网络后连接一些后处理模块或强大的安全代码。神经网络的进入和规则的退出是一个渐进的过程。


只是假设人才还能流通、转型,那么“大家都在赔钱”的智驾行业,有可能被端到端更快地推向一个整合的临界点。


上述智能驾驶公司R&D负责人感叹,目前高级智能驾驶公司“都活不好”的重要原因是采用了上一代模块化的技术结构,人工成本无法降低,数据飞轮无法转动。


而且端到端的高门槛和高效率代表着,不需要也不会有太多的汽车公司和智驾供应商掌握端到端。大企业要迎接自己的内耗,小企业只能坚持认知和效率的领先地位,才能迎接这场临近淘汰赛。


参考资料

[1] 端到端智能驾驶上车,理想,蔚来定好时间表,晚点,


[2] 21解读 | 数百亿模型浪潮背后:蔚小理智力驾驶组织学,21世纪经济报道


本文来自微信公众号“远川汽车评论”(ID:yuanchuanqiche),作者:熊宇翔,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com