数据不智能,数据闭环重塑高级智能驾驶未来

2024-10-13

在自动驾驶进化的道路上,城市NOA也被视为智能汽车后半段的开始。


自2023年上海车展以来,有关城市NOA的路线之争逐渐明朗,“重感知” 轻地图”、借助纯感知和结合感知路线,以及BEV 智能驾驶解决方案Transformer模型已经成为业界的共识。


如今,城市NOA正在进行商业化竞争。如何利用高效的算率支撑、完善的算法模型和大量有效的数据形成闭环,是大规模量产的关键。



资料成为高级智驾“稀缺品”


在智能驾驶领域,数据是生命之源。没有数据,那些复杂的算法和模型就像一条干涸的河流,无法滋润智能水果。


端到端时代空前提高了数据的重要性。在过去基于规则的算法时代,工程师将如何将驾驶行为简化为规则,并将其写入自动驾驶算法。当模型出现问题时,可以通过修改或添加新的规则来完成问题的修复。


对于端到端的自动驾驶算法来说,模型只会通过驾驶视频短片学习驾驶行为和对环境的理解。因此,如何将人类想要从模型中学到的东西交给信息,使模型在训练中学习这些先验知识变得更加困难。因为每个人类驾驶的视频短片实际上都包含丰富的驾驶行为,所以模型不容易理解这些视频短片中抽象的先验知识(如左转直行)。


端到端技术的核心是通过大量的数据训练模型来识别和预测各种驾驶场景。高质量数据的输入直接关系到模型输出的准确性和可靠性。这类信息不仅要包括各种道路条件、天气变化和交通状况,还要保证其注明的准确性和多样性。


当传统模块化算法需要改变控制方法时,可以在代码中找到几行具体的参数进行修改,然后可以测试1%的例子。在端到端的算法中,需要重新练习自动驾驶算法的小变化,难度可想而知。因此,大量、多样化、高质量的数据是不可或缺的,自动化、高水平的数据处理系统也尤为重要。毫不夸张地说,数据将占端到端自动驾驶开发成本的80%以上。


从数据维度来看,大量高质量的数据正在成为自动驾驶行业的“稀缺产品”。一般来说,激光雷达的算法至少需要几十万帧的数据训练才能满足自动驾驶的性能要求。单目摄像头要求更高,需要几百万帧的训练数据。然而,与BEV方案相比,两者之间的差距仍然巨大。


为了满足车辆规定的要求,自动驾驶使用的BEV感知方案需要达到1亿帧以上的训练数据,否则很难保证泛化性、准确性和召回率。


对端到端算法而言,数据需求激增,并伴随着模型体量的增加而扩大;对质量的要求也有了明显的提高,多样性和丰富性是不可或缺的。


以特斯拉为例,马斯克曾经说过,为了满足全球监管机构的要求,特斯拉的FSD检测里程需要达到60亿公里,这也是实现自动驾驶系统质变的重要节点。


根据《马斯克传》的描述,神经网络为了达到良好的运行状态,至少要练习100万个视频短片。到2023年初,特斯拉已经分析了从特斯拉客户车辆上收集的1000万帧视频图片。其中,特斯拉还会选择人类优质司机采取的行为来训练模型。


在2024年5月解决了算率瓶颈之后,马斯克表示,收集长尾数据的难度更大。现在,特斯拉通过不断扩大FSD功能来覆盖更大的用户数量。特斯拉FSD真实路况总里程在2024年第一季度达到12.5亿公里(约20亿公里),远超其它企业总和。根据目前的速度,特斯拉预计FSD累计行驶里程将在一年内达到60亿公里。


因此,为了达到特斯拉的自动驾驶水平,大量、多样化、高质量的数据是主要前提。


关键在于“数据闭环”


数据闭环的核心任务是如何获取大规模数据,获得后如何有效回传、标注和训练,最后OTA反馈给汽车,这也是大多数汽车公司渴望拥有的能力。


数据闭环不是一个新概念,广泛应用于网络时代初期。一个典型的例子是各种软件和应用的“客户体验改进方案”。


当客户第一次打开软件时,通常会弹出“是否添加客户体验改进方案”的选项。点击确认后,软件会收集用户的使用信息。当出现崩溃、bug等场景时,软件还会弹出信息,询问“是否允许上传崩溃信息以帮助改进”,比如Windows的各种错误报告


点击提交后,软件开发商的工程师会对错误报告进行分析,找出崩溃和bug的原因,然后在下一次更新后修改代码并解决。


这是一个传统的数据闭环,用户在使用中遇到的所有问题都可以通过这种方式处理,循环往复,不断优化软件性能和使用体验。


R&D和优化自动驾驶系统,与传统软件开发有很大不同。


传统软件更多的是在代码端解决各种问题,但是自动驾驶系统除了代码之外,还有更关键的AI模型。传统的数据闭环方式可以解决代码端问题,但需要重新训练或改进模型端的AI算法模型。


所以,自动驾驶数据闭环需要引入一些新的东西,比如数据标记、模型训练、算法调整等等。



在数据收集阶段,收集足够的交通数据并不容易。收集数据有两种,一种是通过R&D收集汽车。在初始阶段,小鹏和华为都是通过这种方式获取数据的。另一种是通过量产车获取数据,这是数据规模上升后的主流方式。


早年,大多数自动驾驶企业依靠收集汽车来收集数据。这种信息不真实,分布偏,质量低。他们只能做一个Demo,很难进行大规模的端到端训练。近年来,随着量产车的大规模实施,行业内许多企业开始通过阴影模式选择量产车来收集数据,但这种模式仍然面临着巨大的挑战。


这包括采集策略的问题,即如何平衡数据的长尾问题(有效性)和数据的规模问题(成本)。如果采集策略相对宽松,通常采集的数据大多是无价值数据;如果采集策略太严格,大量有价值的数据就会丢失。


其次是数据质量问题。如何定义数据质量是一个艰巨的产品问题,如何准确选择覆盖足够多极端情况的高质量数据是一个复杂的技术问题。


之后就是数据分布的问题。如何从大量的数据片段中提取有效的特征,如何统计数据的分布,需要考虑哪些方面,都需要大量的工作。


在数据回传阶段,当信息量特别大时,数据回传的成本会很高。


自行车每天回传的数据量约为100兆级。在R&D阶段,车辆总数只有几十辆或几百辆左右,但在量产阶段,车辆数量可以达到一万多辆、几十万甚至更多。那么,在量产阶段,整个车队每天产生的数据量就是一个很大的数字。一个造车新势力每个月只用来做数据回传的流量成本高达“几千万”。


另外,数据量的急剧增加也给存储空间和数据处理速度带来了挑战。


大规模生产后,数据处理的延迟需要与R&D阶段保持在同一水平。但如果底层基础设施跟不上,数据处理的延迟会随着数据量的增加而相应增加,这将大大减缓R&D过程的进度。对于系统迭代来说,这种效率下降是不可接受的。


在数据标注阶段,虽然大模型的应用可以自动完成80%以上的数据标注,但至少有20%涉及复杂场景、多目标、复杂语义的数据需要人工完成“精准标注”。


过去需要注明的数据主要是前视摄像头数据,2D标记框 3D位置已经是标注的全部内容;现在是BEV 在Transformer计划下,所有相关摄像头看到的障碍物、车道线和汽车的运动状态都需要相应的标记,同一坐标系统下也需要标记大量的语义信息。



在数据标注阶段,大多数企业会依靠“人海战术”,依靠人工对收集到的数据进行场景分类,工作量远远超出想象。一般的检查框,一分钟的内容,标记大概需要一个小时;点云分割,一分钟内容,标记需要几个小时;但是,4D标记更复杂的任务可能需要一分钟以上的时间才能完成。


后面如果要进行端到端的算法训练,在给这一帧的内容贴上标签时,还要考虑标签如何与其它帧的内容相关联。


总的趋势是自动驾驶行业对标记的要求越来越高,这意味着投资一分钟视频的标记成本也在上升。如果标注的结果不准确、不完整,基于这些信息的模型性能将受到影响。


此外,在数据采集和处理过程中,隐私保护是一个不容忽视的问题。自动驾驶车辆在运行过程中,可能会捕捉到行人的面貌、车牌号等敏感信息。如何保护这些个人隐私,防止数据泄露和滥用,是每个自动驾驶企业都必须认真对待的问题。


对于大多数自动驾驶企业来说,他们也会面临严重的数据泛化问题,因为不同车型的传感器设备差异很大,采集的数据往往很难重用。然而,国内汽车公司有许多常见的车型。最后,他们可能会在那里采集一堆数据,无法使用。它们看起来像数据资产,但实际上都是存储成本。


技术新路径“华山一路”


在数据闭环系统中,模拟无疑是一个关键环节。模拟的起点是数据,数据分为真实数据和生成数据。随着真实数据“规模小、质量低、使用难度大”等问题的日益暴露,数据的生成越来越受到重视。


在中国,虽然每个原始设备制造商都不缺乏真实的数据,但这些数据的利用率仍然存在很大的问题。同时,如果用真实数据进行模拟,有一个非常严重的痛点——复用性差。


比如做路采的时候,汽车的芯片平台、传感器架构、刹车系统是什么样的?在模拟系统中进行测试时,汽车的这些硬件配置也必须与路采中使用的车辆配置一致。一旦传感器的位置或型号发生变化,这组数据的价值就会降低甚至无效。


事实上,真实数据的主要问题不是“太少”,而是质量低、使用困难、可重复使用性差,这正是数据生成的基础。


生成数据(Synthetic Data)它是通过计算机技术产生的数据,而不是通过真实故事产生的数据。然而,生成数据具有“可用性”,原始数据的属性可以在数学或统计中体现出来,因此也可以用来训练、测试和验证模型。OpenAIGPT-四是采用了大量前一代GPT-3.5模型制作的数据进行练习。


Gartner 预计到2024年,60%用于训练Al的数据将是生成数据,到2030年,AI模型使用的大部分数据将由人工智能生成。



统计学家唐纳德最早于1993年生成数据。·B·鲁宾(Donald B. Rubin)提出,目前被广泛引用,并且在金融保险、医疗制药、汽车制造、零售、自动驾驶等领域都有或深或浅的应用。


在很大程度上,生成数据的原理在于模拟真实数据的分布特征和统计特征,然后通过生成模型创建新的数据集来帮助模型训练、测试和开发,这些模型在真实训练数据样本不足或使用有限的前提下(如数据敏感或隐私保护)。


广义而言,生成数据主要用于替代模型训练和下游任务,因为它保留了与真实世界数据相同的结构或分布,但不包括原始信息。


然而,在实际应用中,一些人基于原始数据样本,通过一些合成方式生成相应的合成数据(例如,使用u200c数据填充方式更换原始敏感和关键字段,合成局部数据),以增强模型泛化能力。因此,在一些分类中,生成的数据包括全部生成、部分合成和混合各种形式。


当前,生成数据在模型训练、数据增强等场景中起着重要作用,特别是在对齐阶段的模型训练中。


随著数据的生成越来越受到重视,技术人员也在不断地创新数据生成的方法。就实际使用而言,目前主要采用以下方法生成数据。


随机采样产生。统计特性(如平均值、方差、相关性等。)根据现实世界信息中看到的随机生成数据。这种合成方法基本直接,适合简单的数据集生成,但面对高维度复杂的数据,有一定的局限性。


根据特定的领域规则生成。根据数据集预定义的规则和约束,手动或半自动生成数据。这种方法生成的数据可以保持与现实世界复杂场景的一致性,促进生成的合成数据具有一定的解释性,但这种方法只有在规则明显或规则明显时才有效。


采用深度学习的方法生成。主要体现在使用生成对抗网络的应用中。(GAN)、自动编码器的变分(VAE)等待生成生成数据。举例来说,视频生成模型Sora采用了生成对抗网络。(GAN)生成生成数据。在这个过程中,生成器负责基于原始数据合成图像,识别器负责分离原始图像和合成图像。当抵抗机制达到平衡时,可以生成非常相似但不同于现实世界图像特征的合成图像数据。


自动编码器的变分(VAE)它是在原始数据的基础上,通过编码器(数据降维)和解码器(数据重构)的合作,通过无监督算法生成新数据。两者都是生成多模态数据的有效方法。


使用生成数据工具生成。例如使用Python、Scikit-learn、Datagen、Mostly AI等数据生成工具软件和机器学习库,以生成相应的合成数据为目的。目前,GPT等大语言模型也可以直接使用,数据增强和虚拟数据合成可以通过提示词进行引导。


此外,更多的训练数据样本是通过转换、扩展和匿名来生成的,即通过增强数据和匿名数据来生成数据。只是这种数据更多属于部分合成数据,真实数据的特性保留度高,在多样性和多样性上也会有一定的影响。


在自动驾驶领域生成数据的一个主要应用是模拟极端情况。在真正发生之前,没有人能预测到大量的极端情况,属于“预期功能安全”第三象限中的“Unknown,Unsafe"一类,所以不能在真正的道路上模拟。在这种情况下,基于人工规则的合成数据是不可能的(WorldSim)生成,也不可能通过对现实世界进行3D重建的技术。(NeRF)生成,但是有望通过基于AIGC的合成数据获得。


一些极端的情况,尽管人们可以想像“大概会怎样”,但是毕竟太危险了,所以也不建议在真正的道路上进行模拟。这一极端情况不能通过NeRF技术生成,但是可以通过生成数据来生成。在一些极端情况下,不可能有多不安全,但也会影响交通安全。例如,极端天气,如雨、雾、雪和极端光源,需要通过生成数据技术来生成,以匹配一些极端的交通流量。还有许多极端情况,在真实数据中密度过低,挖掘成本过高,此时选择生成数据是最好的策略。


有了生成数据,原始设备制造商或自动驾驶公司可以在几个小时内模拟数百万个极端情况。这些模拟可能包括不同照明条件、目标位置和恶劣环境下的例子,或者可以插入随机噪声模拟脏摄像头、雾等视觉障碍物。


另外,由于真实数据高度受到采集场景的限制,极端情况在样本分布上也难以有效满足算法的需要。而且生成数据,能有针对性地生成分布状态更能满足训练需要的极端情况,这样更有利于提高算法的性能。


如今,数据对自动驾驶行业的驱动力已经成为每个玩家无法回避的关键。完善的闭环模型需要大规模、高质量、多场景的数据,高计算能力、高效率、相对低成本的算法模型,倾向于自动化的数据标注和处理,高速低成本的传输速度和存储模式,以及安全合规的护航,在数据喂养下不断循环前进,实现自动驾驶的不断进化。


数据闭环的每一步都是一场成本和效率的游戏,每一场游戏都是科技理性与价值理性的结合,每一场游戏的结合都必然需要上下游企业的信息共享、技术开源和生态共创。数据闭环也是实现城市NOA和更高级别智能驾驶的“华山之路”。在这条路上,它可以是缓慢的,错误的,但它只能不进山,否则它会被遗忘在山脚下。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com