智能化驾驶中场战争,如何穿越内卷周期?

01-10 11:18

80%的数据 模型20%=更好的AI


斯坦福大学计算机科学教授吴恩达是人工智能领域的权威学者。(Andrew Ng)人工智能“28定律”在他45岁生日那天提出。他指出,“如果我们80%的工作是数据准备,那么保证数据质量是人工智能团队的重要任务。”


从这个角度延伸到端到端的智能驾驶领域,智能驾驶这道菜看起来很有吸引力,但是汽车公司要吃到嘴里就没那么容易了。这不仅需要数据作为原料,还需要计算燃料来烘烤火,并与算法一起烹饪。高质量的数据和充足的计算率是所有技术迭代升级的前提。没有好的食材和温度,无论算法有多先进,都无法发挥最大的作用。


当智能驾驶迎来最关键的中场战争时,行业的重点不再是招募更多的顶尖工程人才,而是转化为模型设计、工具链开发和模型测试验证。一个非常明显的现象是,行业曾经把团队规模作为描述创新的指标,到2024年下半年,行业竞争的关键指标就变成了云计算能力和数据质量。


从2023年的开城对决到2024年的“停车位到停车位”对决,如何形成闭环数据?如何构建计算率“储水池”?如何最大限度地利用数据和计算率资源,实现最佳算法?这些都是汽车公司在智能驾驶后半段必须解决的问题。



数据闭环能力在“冰山之下”


端到端的智能驾驶技术,是数据与计算能力的结合。


随着智能驾驶系统中感知定位、决策规划和控制模块的实现,智能驾驶系统的开发范式逐渐从规则驱动向数据驱动转变,从基于规则的代码转变为AI模型。当系统越来越依赖数据驱动时,数据闭环对智能驾驶系统越来越重要。


所谓数据闭环,就是从数据收集、存储、挖掘、标注到模型训练、模拟验证、集成部署的整个开发工作流程。数据闭环完成了数据价值的提取,其本质是将人类的驾驶知识逐渐转移到智能驾驶系统模型的参数值文件中,隐藏在一个又一个驾驶数据片段中,从而使智能驾驶系统的性能更加拟人化,大大提高了驾驶体验的自然性和舒适性。



从数据闭环的发展阶段来看,在第一阶段,智能驾驶技术主要采用硬件驱动的方式进行研究和开发,数据闭环的概念首次显现。进入第二阶段,算法和软件的重要性不断提高。智能驾驶开始选择基于规则驱动的小模型和方法来解决智能驾驶问题。随着智能驾驶技术的提高,智能驾驶系统对数据的需求急剧增加,对数据闭环的需求也越来越高。因此,数据闭环逐渐进入数据驱动的第三阶段。


特斯拉对端到端智能驾驶系统所需的数据给出了一些判断标准:一个端到端自动驾驶训练至少需要100万个分布多样、质量高的视频短片才能正常工作。如果有1000万个片段,系统能力会变得不可思议。


理想情况下,最迟在今年年初,将推出端到端训练约1000万个片段。 VLM。不久前,小鹏智驾负责人还明确表示,小鹏端到端模型的训练信息已经达到了2000万个片段。


目前,汽车公司和智驾公司获取数据的途径主要有两种:


第一,从量产车中挖掘出来。例如,对于汽车公司销售的数十万辆汽车,工程师会写出特殊的规则。如果客户的驾驶行为符合要求,特定数据(脱敏处理后)将上传。汽车公司的用户也可以主动上传一些特殊案例。


二是在股票数据中挖掘数据。在智能驾驶初期还不成熟的阶段,汽车公司和智能驾驶公司往往会积累大量的数据,其中许多是无效数据,工程师只能依靠一些算法规则来挖掘。


高质量的数据作为养分,将决定智能驾驶系统迭代的质量,同时也将继续考验汽车企业的智能驾驶自动化闭环能力。


近年来,随着大规模生产汽车的实施,许多汽车公司开始转向选择大规模生产汽车的影子模式来收集数据,但这种模式仍然面临着巨大的挑战。


首先是收集策略的问题,即如何平衡数据的长尾问题(有效性)和数据的规模问题(成本)。如果收集策略比较宽松,收集到的数据大部分都是垃圾数据,一点实用价值都没有;如果收集策略太严格,担心丢失大量有价值的数据。


其次,是数据质量的问题。如何定义数据质量是一个艰巨的产品问题。“坏数据”(驾驶不熟练、驾驶习惯不好、违反交通规则等。)会拖下大模型的训练效果。因此,如何准确选择高质量的数据是一个复杂的技术问题。


第三,是数据分布的问题。如何从大量的视频短片中获得有效的特征,如何统计数据的分布,需要考虑哪些方面,都需要大量的工作。


对于大多数汽车公司和智能驾驶公司来说,他们也会面临严重的数据泛化问题。由于不同车型的传感器设备差异巨大,采集的数据往往难以重用。然而,国内汽车公司有许多常见的车型。最后,很有可能他们采集了一堆数据,无法在那里使用。看似是数据资产,实则是存储成本。毫不夸张地说,数据将占端到端智能驾驶系统开发的研发成本的80%以上。


所以,越早形成数据闭环能力,就越有利于汽车公司建立一个既宽又深的技术和产品环城河,就越有机会避开竞争对手。


“计算军备竞赛”愈演愈烈。


从去年开始,AI大模型催生的抢购算率浪潮突然转移到汽车行业。以理想、华为、小鹏为首的新势力汽车公司和智能驾驶公司尤为激进。


与AI大模型技术相同,端到端的智能驾驶技术也有数十亿参数,也在向数百亿级发展。算率资源的竞争已经成为继数据之后智能驾驶领域的又一新制胜规则。


事实上,智能驾驶的计算率军备竞争已经越来越激烈。一方面,随着智能驾驶系统的迭代升级,智能汽车携带的传感器数量和类型进一步增加,智能驾驶系统需要实时收集海量传感器数据并进行整合,做出合理的决策和路径规划,实时将决策输送到执行部件。在海量数据处理和超低延迟的需要下,智能驾驶系统的计算量急剧增加,计算能力的需求呈指数级增长。


一般来说,自动驾驶等级每增加一个等级,所需的芯片计算率就会增加十倍。根据Intel的计算,在L5级自动驾驶时代,每秒需要芯片处理的数据约为4000G。


另一方面,智能驾驶舱和智能汽车联盟的发展也对计算率提出了新的要求。随着驾驶舱交互体验的升级和第三生活空间的趋势,“显示屏”逐渐取代了车内其他显示模式,进一步丰富了车载娱乐和服务,多模式交互成为趋势。这些都对整车的计算率提出了更高的要求。


去年七月,理想汽车云计算率为2.4 EFLOPS,截至11月,计算率已经达到6.83 EFLOPS。从目前的2.51到2025年,小鹏汽车计划云算率将达到2.51。 增加到100的EFLOPS EFLOPS。华为智驾也在两个月内立即将云计算率从5 向7.55扩展EFLOPS EFLOPS。


目前汽车计算率的来源仍然是汽车计算平台,汽车计算率的上限决定了汽车未来可以承载的软件服务升级上限,从而决定了汽车整个生命周期的价值。因此,在软件技术仍在不断升级迭代的情况下,原始设备制造商为了在未来获得更大的软件业务收入,通过积累硬件来预埋足够的计算率。


然而,在摩尔定律下,汽车计算平台的计算率有上限,汽车的商品属性很难承受不惜一切代价的硬件积累。数据的实时分析和处理吞噬了快速上升的计算率值,这场计算率军备竞赛逐渐演变为计算率值的盲目竞争,导致原始设备制造商的计算率焦虑。


云大模型成为一种可行的方案,以减少计算率供应的紧张。


从目前行业主流的三种端到端技术发展路线来看,一种是通过大量规则和小模型堆叠而成的“大模型”,需要大量优秀的规则工程师;一种是“大型车辆端模型”,即端到端模型直接部署在车辆上。虽然见效快,但受车辆计算率限制,随着后期培训数据的增加,容易陷入瓶颈;三是大型云模型(Foundation Model),它的参数是车端模型的几十倍甚至几百倍,这是简单的车端模型无法企及的。


但是训练一个大型云模型,也对大型高性能计算率和数据存储和处理提出了很高的要求。


首先,需要提高并行训练的性能和利用率,这给云基础设施带来了网络互联、带宽、系统软件优化等挑战。


二是对模型训练长期稳定性的要求,如模型训练中断,训练出现问题后能否迅速拉起任务,缩短故障时间。


三是大规模多模态数据的存储和处理能力,实现并行训练的高性能、高吞吐量,满足不断增加模型训练数据量的需求。


四是在满足数据处理性能要求的前提下,通过支持数据分层存储,实现海量数据的存储成本要求的最佳成本。


从整个车辆的角度来看,当车辆结构和云架构进一步统一时,接下来的竞争是数据挖掘、数据的有效利用以及整个技术栈对数据的理解,以及如何在大型基础设施上平衡整个计算效率。


也就是说,需要获得高质量、大规模的数据,然后结合高计算能力来练习和迭代算法能力,在“冰山之下”车与云之间建立数据闭环能力,这样“三大件”的能力才能更高效、更低成本地运行。


怎样为智驾“降低成本”?


智能联网汽车的背景是车辆的AI化。无论是智能驾驶、智能驾驶舱还是车路云一体化,都在朝着人工智能的方向进化。深度学习、大模型等技术也嵌入到功能开发过程中。


对于智能汽车来说,智能驾驶水平体现在对环境的即时感知和对数据的分析处理能力上,这需要庞大而高质量的数据集和足够的计算能力来支撑。在资源有限的情况下,集通信、感知、计算于一体的车路云网络有望为智能驾驶降低成本提供新的途径。


通过车路云网络,可以建立跨车端、路侧、云端的系统闭环,路侧收集的数据可以上传到云端,云端可以收集并标记这些信息,用于算法训练。之后,云将训练好的算法模型数据发送到车上,进行OTA部署和更新。


同时,路边数据可以弥补车辆的自然局限性(视线盲点、超视距感知不足、恶劣天气感知精度下降等)。),丰富车辆的整体数据,进而进一步提高智能驾驶能力和安全性。三端信息相辅相成,促进了智能驾驶技术的迭代和演变。



交通行业是一个复杂的系统,人工智能目前只呈现碎片化应用,如识别信号灯、识别违规行为等。为了真正解决问题,需要将车流、路面、交通信号等所有散点与大模型线连接起来,形成更高维度的全局智能。通过智能协同汽车、道路、云等重要交通节点,可以全面、及时、准确地感知、控制和决策交通趋势。


引入多模式大模型后,车路云网络可以提高视觉分析的准确性、泛化能力和场景适应性,通过多模式大模型可以优化小模型算法面临的问题。同时,考虑到成本和带宽,前端小模型也需要支持多模式大模型的应用。大小模型的协同应用实际上是多级协同计算,多级协同计算可能是未来发展的主要应用点。


前端小模型实时监控,快速分析,后端大模型深入推理,二次判断,减少乱报,最后通过人类反馈加强学习方法,优化升级整个算法模型。其中,大模型预测准确,方法能力强,结合了小模型的快速计算和低成本优势。


在车路云一体化场景下,云计算聚焦于非即时长周期数据的大数据分析,可以为业务决策支持提供参考,实现新应用服务开发的快速灵活部署,存储和分析整车OTA数据,管理和简化车辆电子产品和软件的复杂性。


边缘计算侧重于即时和短周期数据的分析,可以更好地支持车辆的即时智能处理和实施。车路云网络可以利用边缘小模型在路边快速感知,利用边缘云中的大模型推理进行二次预警,利用行业中的大模型在中心云中进行优化,利用多级协同计算实现事件感知的准确性。


就交通流量预测而言,行业基本采用时序数据进行预测,包括实时监测、短期预测、长期预测等。但交通预测是一项复杂的任务:交通流量构成复杂,交通流量参数之间不是简单的线性关系,会受到天气、特殊事件等外部因素的干扰,交通系统具有动态性和不确定性;同时,交通数据的质量和可用性也需要考虑。结合交通环境实时数字孪生的数据预测,可以为路网管控决策提供量化支持。


在车路云网络下,汽车、道路和交通十字路口可能都是智能体。智能体的发展最重要的是人机协同。换句话说,人们设定目标,智能体将目标分割成不同的步骤,这样智能体就可以确定每一步是使用大模型还是小模型,最终形成一个完整的闭环链,保证智能体的运行。


以前处理交通事件的计划很多,大部分都很难定量定性,比如不能准确知道拥挤的原因和水平。换句话说,之前的计划相当于一个知识库,不同的人对每一步的理解不同,处理方法也不同。通过智能体的应用,将计划知识库转化为智能体,可以更灵活地分发和调度步骤,最终形成对交通事件的准确分析和理解,方便交通管理部门实现更精细的交通管理。


智能驾驶技术的演变似乎从冷兵器时代到热兵器时代,不同的技术阶段有一定的代际差异。过去,辅助驾驶依靠有限的规则和单一的功能,仍然有获胜的希望。然而,在端到端的智能驾驶时代,需要更大的计算能力和更多的数据,以及计算能力和数据流通的机制和工程能力。任何一个环节的不足都会给这场比赛带来变数。


到目前为止,仍然有大多数汽车公司坚持自行车智能路线,但汽车和道路云一体化的潜力不容忽视。目前还没有统一的答案,无论是各自的发展还是最终的融合。然而,我们无法回避的是,智能驾驶对降低成本的需求越来越高。数据和计算率的供应不仅需要更多,而且应该更好。期待通过堆卡和堆数据来做好智能驾驶的日子一去不复返。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com