苹果自动驾驶新进展:36元训练百万公里数据,10天跑完16亿公里

02-25 12:38


每天训练950年的驾驶经验,苹果让自动驾驶自己“修真”。


汽车东西2月24日消息,苹果最近在机器学习研究页面上发表了一篇关于自动驾驶领域的最新研究论文。



▲Apple官网苹果自动驾驶前沿进展


这篇论文的创新之处在于,它提出了一个全新的大规模自我游戏来加强GIGAFLOW的学习框架,并证明它能够有效地训练出一般而具有鲁棒性的驾驶策略。


数据显示,通过这个自我监督训练系统,每10天就可以完成16亿公里的练习,相当于9500年左右的驾驶经验。如果换算成一天,就相当于1.6亿公里和950年的驾驶经验。


而且这种训练,成本控制也非常突出,每百万公里的模拟成本不到5美元(约36.1元人民币),而且不需要真实的世界数据。


这项研究的公布也证明,即使在放弃造车之后,苹果也没有完全停止对汽车行业的关注。也许苹果未来会在自动驾驶领域生产令人震惊的新产品。


苹果的造车历程始于此 2008 年度乔布斯亲自开始 经过多次战略调整、团队重组和领导层的变化,“泰坦计划”的目标已经从全自动驾驶转变为科研开发。然而,由于战略模糊和实施不力,实质性商品尚未推出。


最后,2024年初,苹果正式放弃了电动汽车的发展。据媒体报道,苹果至少在造车项目上投入了100亿美元(约721亿元人民币)。这个结局也引起了马斯克、雷军等很多科技领袖的集体感受。


01.引入游戏训练设计,可以在短时间内获得大量的训练经验。


GIGAFLOW是一款专为自博弈训练而设计的高度平行的模拟器和强化学习框架。其主要目标是通过模拟几十亿公里的驾驶数据,培养出一种通用的驾驶策略,可以适应各种交通参与者和驾驶风格,同时也是一种不需要真实世界数据的训练模式。


GIGAFLOW可在8个GPU上同时模拟384,000个虚拟环境,每小时生成4.4亿个状态转换,相当于42年的驾驶经验。


值得注意的是,GIGAFLOW的模拟环境设计简洁,但是它的设计简化是通过大规模的自我游戏来填补的。



▲环境模拟GIGAFLOW


GIGAFLOW使用了8张基本地图,每张地图的车道总长度在4-40公里之间。通过随机转换(例如缩放和旋转),这些地图形成了一个总长度为136公里的道路网络。


在这样的“世界”中,每个智能体的目标都是从随机位置到达地图中随机生成的目的地,途中需要经过几个中间点。



▲不同驾驶风格的GIGAFLOW


从互动决策的角度来看,在这样的环境下,智能体(包括车辆和行人等)最多可以同时存在150个。),所有参与者都由同一个策略控制,但多样化的行为模式,如激进驾驶和守法驾驶,都是通过参数化条件展现出来的。


通过自博弈,智能体在训练过程中逐渐学会了复杂的驾驶行为。


这些行为包括在拥堵路段实施“拉锁”并线,在环岛协调通行,在狭小空间实施多点调头,在发生事故或遇到路桩时重新规划路径。


要知道,所有这些复杂的行为都是通过自我游戏自然而然地出现的,没有预设脚本或人类示例。


02.多项措施优化培训费用,成本表现突出。


就能力而言,GIGAFLOW通过GPU加速物理计算和动态状态压缩,模拟了单节点3.84万个并行环境,显著减少了内存占用和通信费用。


GIGAFLOW完整训练在实践资源配置方面需要2000GPU小时(约10天),总计计算量约为2.3。×10^19FLOP,训练数据总量为16亿公里。


根据AWS p4d案例(8 GPU/节点)总训练费用约为4.8万美元(约合人民币34.56万元),低于同类强化学习计划。



▲与其他模型相比,GIGAFLOW训练量


另外,依靠人类数据的模仿学习通常需要高昂的数据标注成本,而GIGAFLOW则防止了这部分开支。


GIGAFLOW为了进一步提高效率,采用了优势过滤技术,通过动态阀值丢失了低优势样本,减少了80%左右的反向传播计算,加上所有交通代理(包括车辆和行人)共享同一战略网络,防止了多模式训练的费用。



▲所有交通参与者共享同一战略网络


另外,GIGAFLOW还可以通过离线生成地图的网格化特性(例如车道拓扑和交通灯的位置)来减少实时计算负荷。


但是,GIGAFLOW仍然存在一些成本限制,例如8 依靠GPU节点级计算能力,还有一定的门槛,这种策略的鲁棒性需要超过15亿公里的训练量,短期训练难以收敛。


此外,车辆动力学和奖励函数的实时随机化将增加约15%的计算负荷。可以说,这个系统是目前自动驾驶训练的一个很好的发展方向,但还没有达到“革命性”的时刻。


03.能力超过标准,未来仍有改善空间。


GIGAFLOW战略的零样本泛化能力在三个主流自动驾驶标准中得到了验证,包括CARLARL、nuPlan和Waymax。


基于手工设计的CARLA驾驶场景,主要评估远程驾驶的性能;基于记录的真实驾驶数据,nuPlan评估短距离驾驶的性能;Waymax使用Waymoo Open Motion 模拟环境由Dataset构建,在复杂场景中评估驾驶性能。



▲CARLAGIGAFLOW的检测表现


测试数据显示,GIGAFLOW的策略在所有标准上都超过了特定标准的专家模型,显示出较强的零样本泛化能力。即使在没有微调任何特定标准的情况下,它的性能仍然优于那些专门为基础进行优化的模型。


GIGAFLOW的策略可以有效地应对突发行人穿越和拥堵的十字路口等复杂场景。



▲在其他标准下,GIGAFLOW的检测表现


但是GIGAFLOW策略在nuPlan和Waymax的基准测试中显示了自然而鲁棒的驾驶行为。


进一步分析表明,GIGAFLOW战略在长期驾驶鲁棒方面也表现出色。在降低动态噪声和增加控制频率的情况下,一次事故只能发生在智能身体平均连续驾驶1750万公里,而美国人类驾驶员平均事故发生率为每82.9万公里。



▲在模拟/决策不同值的前提下,GIGAFLOW模型故障率


此外,研究人员还深入探讨了GIGAFLOW战略的行为特点,包括其长期管理能力,可以根据未来可能发生的事件(如150米外的路桩)调整当前的驾驶行为;多样化的驾驶风格和策略可以通过调整参数化条件来呈现从谨慎到激进的各种驾驶风格;以及策略在复杂的场景(如车流合并)中表现出灵活自然的行为,需要多主体协调。


然而,这一成就在项目团队中仍有很大的进步空间。虽然这种方法的优点是减少了对人工数据收集的依赖,可以产生多样化的驾驶行为,但研究仍然有局限性。


第一,纯模拟策略尚未在现实世界中得到验证,因此其在实际应用中的表现仍然不得而知。


另外,假设感知系统是完美的,但是在现实中,传感器噪声和环境的不确定性可能会对策略的表现产生重大影响。


最后,虽然自博弈表现出强大的泛化能力,但如何将其与基于人类数据的模仿学习相结合,仍然是未来研究的重要方向。


04.结论:苹果仍在继续发力汽车工业


本文通过GIGAFLOW框架展示了自主游戏在自动驾驶领域的巨大潜力。然而,目前仍有许多挑战需要解决,如现实世界的验证和感知系统的整合。


从苹果的角度来看,虽然他已经正式宣布停止造车项目,但他并没有放弃对机器学习领域的前沿追求,继续在汽车行业发力。


GIGAFLOW框架的研究为未来的自动驾驶研究开辟了一个新的方向,也启发了其他多智能体合作领域。你不妨期待苹果在自动驾驶领域给行业带来更多的震撼。


本文来自微信微信官方账号“车东西”,作者:Janson,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com