AI下一个必争之地,会不会导致自动驾驶“终局之战”?

2025-01-16

“机器人ChatGPT时刻即将到来。世界基础模型和大语言模型一样,对于推动机器人和自动驾驶汽车的发展尤为重要。”



在CES 在2025年,黄仁勋穿着新皮衣,除了推出爆裂的RTX外, 除了5090之外,还宣布进入人工智能领域最关键的方向——世界模型。


英伟达发布的Cosmos世界基本模型是专门为物理交互、模拟工业环境和驾驶环境的高质量生成而设计的。它可以生成一个逼真的视频来训练机器人和无人驾驶汽车,并通过创建生成训练数据来帮助机器人和汽车了解物理世界。


除了英伟达,谷歌和许多创业公司也在追求世界模型。谷歌的DeepMind已经成立了一个世界模型研究团队,被认为是通用人工智能。(AGI)与竞争者竞争的重要一步。另外,“AI教母”李飞飞的Worldd Labs、Decart创业公司、Odyssey也参与其中。


北京智源人工智能研究院近日发布的“2025年十大AI技术趋势”认为,更注重“因果关系”推理的世界模式有望成为多模式大模式的下一阶段。


世界模型不仅吸引了全球科技公司竞相竞争,也被业界视为人工智能领域的下一个关键突破。为什么世界模型如此重要?自动驾驶等科技领域会引发哪些新的变化?



人工智能下一个“必争之地”


现实世界中,技术也是可以高度重构的,随着时间的推移,新技术的出现,未来将不断完善,不断进化。


自2022年底以来,随着OpenAI发布了ChatGPT大语言模型,生成式AI模型逐渐演变为两种方式:语言模型和世界模型。


语言模型继续深入数字世界,从单一的文本模式向包括照片和视频在内的多模式迈进,使其具备文字图片、图片说话、图片图片和文字视频的能力。典型的代表是Sora和GPT4-o。


然而,语言模型深受异议的挑战是,他们有幻觉的趋势,他们会编造参考资料和事实,或者在逻辑推断、因果推理等方面产生毫无意义的内容。所有这些幻觉都源于他们对事件之间因果关系缺乏了解。


这也说明语言模型虽然善于从数据中识别和提取逻辑关系,但缺乏积极推理新因果场景的能力。他们有能力通过观察来总结因果,但他们没有能力解读因果。


从数字世界到物理世界,世界模型从一维数字智能向三维空间智能迈进。它通过预训练拓展视频和多模态数据,整合多模态语言模型,可以用来为视频游戏和电影建立一个即时的互动媒体环境,同时为机器人和其他人工智能系统建立一个逼真的训练场景,被业界视为通用人工智能。(AGI,指机器能够理解或学习人类能够完成的任何智商任务的关键路径。


“追溯一下,”World Models"(世界模型)最早出现在机器学习领域。


机器学习顶级会议NeurIPS于2018年收录《Recurrent World Models Facilitate Policy Evolution》以认知科学中的心智模型论文(Mental Model)对比世界模型,感觉它参与了人类的认知、推理、决策过程。在这些能力中,核心-反事实推理(Counterfactual Reasoning),这是人类自然所具备的能力。


2024年2月,OpenAI发布了Sora,这是一个震惊世界的文学视频模型,它可以根据文本一键生成一个60秒的视频,这已经成为世界模型的具体体现。


传统的生成模型可能能准确预测篮球会跳跃,但并不能真正理解原因,就像大语言模型实际上是基于神经网络的概率推理,给出最有可能满足实际预期的答案,而不是真正理解单词和句子背后的含义一样。然而,具有基本物理理解的世界模型将更好地呈现“篮球的真实跳跃”。


与大语言模型相比,它还处于理解人类语义的阶段,而世界模型则从三维的角度开始了解真实的物理世界。


事实上,理解现实世界的物理规律并不像想象的那么容易。例如,当你现在想象你的手掌时,你可以毫不费力地准确地想象它。然而,在目前的人工智能生产中,经常会出现多根手指或连指的情况。


此前,Meta首席人工智能科学家杨立昆(Yann LeCun)明确表示,基于文本提醒产生的真实视频并不意味着模型真正了解物理世界。更直言不讳地说,像Sora这样通过生成像素来建模世界的方式注定会失败。


世界模型正试图超越数据,模拟人类的潜意识推理。例如,棒球运动员本能地预测球的轨迹,因此他们可以决定如何在ms中挥杆。这种潜意识推理能力被称为实现人类智能的先决条件之一。


因此,世界模型可以通过练习大量的照片、音频、视频和文本数据来建立世界运行模式的内部表征,并可以推断行为的后果,从而更好地理解和模拟现实世界的规律。


当前,人工智能领域对世界模型的需求主要集中在两个方面。


首先,深入了解和建模环境。人工智能系统可以通过建立准确的世界模型来更好地感知和理解外部世界,从而做出更准确、更智能的决策。目前,人工智能领域在这方面的研究主要集中在强化学习和深度学习领域,通过神经网络等技术构建复杂的世界模型,不断优化和优化模型性能。


二是反事实推理技能提升。反事实推理,即回答“如果…会发生什么?”"问题,这是目前人工智能系统能力的一个缺点。通过提高世界模型的反事实推理能力,人工智能系统可以更好地预测不同决策的可能结果,从而做出更智能、更合理的决策。为了提高模型的综合性能和质量,人工智能领域的研究主要集中在提高模型预测能力和优化推理算法等方面。


自动驾驶迎来了“关键一战”


目前,世界模型是否会成为自动驾驶的终极战争已经得出结论,但毫无疑问,这项技术一旦成熟,就会给自动驾驶的智能化水平带来“质”的变化。


随着自动驾驶的快速发展,对数据有了进一步的要求。汽车公司需要丰富复杂的场景来磨炼汽车的自动驾驶能力。但在现实生活中,数据采集成本居高不下,部分危险场景难以采集,长尾场景稀缺,影响了自动驾驶的进一步发展。


因此,选择生成数据来帮助自动驾驶模型训练已经成为一个有效的解决方案。世界模型就是这样一个场景生成和预测器,可以为自动驾驶模型训练提供丰富的虚拟场景。


过去,多模块化智能驾驶方案可以验证各自的感知和控制模块。在感知端,工程师可以直接比较感知结果和注明的真实世界情况,监控开环;在控制模块中,世界的各种场景可以通过模拟工具输入,模型可以通过环境转换反馈,闭环验证控制算法的性能。


端到端智能驾驶计划将感知、预测、规划和控制融为一体,这就要求模拟工具不仅可以真正恢复外部环境,还可以实现模型反馈的闭环检测,这是世界模型可以实现的。


虽然目前国内汽车行业的重点是端到端,但业内共识是实现高级自动驾驶的必由之路,从“两阶段”逐步过渡到“一阶段”端到端,从而实现世界模型的应用。


假如把自动驾驶技术的发展路线整理出来,就会发现一件很有趣的事。所谓“功夫在诗之外”,其实这几年推动自动驾驶发展的所有技术都不是来自自动驾驶,而是来自人工智能,包括BEV。 Transformer、占用网络OCC、端到端,世界模型,自动驾驶的本质是人工智能的具体智能体现。必须将自动驾驶放在整个人工智能领域进行综合治疗,如果只关注自动驾驶,那么自动驾驶就永远无法完成。



这么多年来,自动驾驶一直在做空间理解的升级,就是让系统更加了解周围的世界。


首先是通过提高传感器的硬件能力,然后是算法升级,通过俯瞰视图。(BEV,Bird’s-Eye-View)转换角度,使用占用网络(OCC,Occupancy Network)把2D转换成3D,到目前为止软硬件能力已经出现了瓶颈,但是极端情景数据的获取却成了一个大问题。


目前常规的做法有两种,一种是3D重建,但是成本高,效率低,不实用;另一种是模拟,但模拟数据根本无法“恢复”真实数据,对自动驾驶的帮助有限。


因此,世界模型已经成为提高自动驾驶训练效率的有效途径之一。它不仅可以通过生成大型模型生成具有预测属性的视频数据,还可以实现Corner Case多元化训练,也可采用加强学习方法了解复杂的驾驶环境,从视频输出决定。



世界模型将过去从人向人工智能主动提出问题,人工智能被动向访问者反馈的方式进化为互动人工智能的新阶段,使人工智能能够主动感知周围环境,提出问题,进而成为一个可以独立行动的实体。


2023年,特斯拉自动驾驶负责人在CVPR上介绍了通用世界模型。通过过去的视频短片和行动提醒,该模型可以生成一个全新的“可能的未来”视频。


Wayve还在2023年发布了GAIA-1模型,它可以通过输入视频、文本和动作来生成逼真的视频,可以生成分钟视频和各种合理的未来场景,帮助练习和模拟自动驾驶模型。


在CES 英伟达在2025年发布了Cosmos世界基础模型(WFM),可接受文字、图像或视频提示,生成虚拟世界状态,形成自动驾驶和机器人应用的内容。


同时,国内厂商也在加快对世界模型建设的跟进。


2024年7月,蔚来发布了智能驾驶世界模型NWM。这是一款智能驾驶世界模型,具有充分理解数据、长期演绎和管理的能力。它可以在短时间内演绎数百种可能的场景,并找到最佳决策。


在其智能驾驶方案中,理想汽车也引入了“重建” 生成的世界模型,利用3D高斯模型进行场景重建,利用扩散模型进行场景生成,为智能驾驶计划提供“错题本”和“模拟题”,重建模拟和生成模拟两种技术路线。


从这个角度来看,世界模型必然是汽车智能化的一个分界点。它在场景生成、模型训练、模拟测试、数据闭环等方面的独特优势将推动包括自动驾驶和机器人在内的人工智能技术迎来“ChatGPT时刻”。


更轻的汽车,更“重”的云


归根结底,自动驾驶的竞争最终将是算法、算率、数据的底层能力之争,任何一个缺点都会导致桶效应。


总体而言,自动驾驶正呈现出从汽车端竞争向云端竞争转移的趋势,整个行业在更“轻”的同时也更“重”。


根据阿伯丁大学、MIT等机构的研究人员对计算能力需求的研究,模型训练所需的计算率增长在2010年之前符合摩尔定律,每20个月左右翻一番。自2010年初深度学习问世以来,训练所需的算率迅速上升,每六个月左右翻一番。2015年底,随着大规模机器学习模式的出现,对计算能力训练的需求增加了10-100倍,呈现出新的趋势。


与目前生成模型的计算量相比,世界模型的训练和运行需要巨大的计算率,即使是Sora(可以算是早期的世界模型)也需要数千个GPU来训练和运行,尤其是当它的使用越来越受欢迎时。


伴随着模型的不断进化,汽车端显然很难承受算率的重量,智能中心必须从汽车端逐步转移到云端。



通过在云端构建强大的数据闭环和计算能力,结合路边计算系统的数据感知整合、实时处理和计算分析,打破了汽车进化迭代面临的技术和计算率瓶颈,“云”成为智能汽车进化道路上强大的底层基础设施。



在路边边缘计算系统和云数据中心的帮助下,汽车的计算率、数据处理和软硬件成本向后移动,从而实现技术和成本的双重减轻,智能驾驶技术可以普及到更低价位的车型。正在攀登高级自动驾驶珠峰的玩家可以通过“技术进步”→成本下降→为了获得更大的市场,产品落地的循环。


汽车端与路边和云端形成完整的闭环。汽车端和路边获取大量交通数据后,云使用大数据和AI算法分析和挖掘数据,从中提取有用的信息。


例如,通过对交通流量进行数据分析,交通部门可以根据实时交通流量和道路情况智能调整配时方案,提高道路通行效率。与此同时,车辆还可以接收车路云网络的信息,提前了解道路上的障碍物和危险,然后采取有效措施确保安全驾驶。


同时,汽车端和路边数据可以集中在云端进行自动驾驶模型的训练和模拟,然后将模型数据发回汽车端,进行OTA部署和更新,三端相辅相成,从而完成自动驾驶技术的迭代和演变。


但是,世界模型的构建和应用面临着显著的挑战。


首先,环境模拟的准确性很大程度上取决于模型的复杂性和数据的质量。需要大量的数据和强大的计算资源来准确预测复杂环境下的动态变化,这可能是资源有限的项目的限制。


自动驾驶是对人类驾驶行为的学习。人的驾驶能力有上限,所有自动驾驶的安全边界也有上限。自动驾驶的安全性必须高于人类,尤其是L4级自动驾驶。因此,世界模型数据训练出来的系统必须高于人类驾驶行为,才能优于人类。


其次,建立一个可以泛化到各种环境的世界模型是非常具有挑战性的,因为现实世界的复杂性和不可预测性远远超出了目前任何模型的处理能力。


和所有人工智能模型一样,世界模型也会产生幻觉,内部训练数据中的偏见。世界模型的训练数据必须足够普遍,包括多样化的场景,同时也足够具体,这样模型才能深刻理解这些场景的细微差别。


虽然世界模型在理论上有很大的潜力,但在实际应用中仍然存在许多未知数量。例如,需要进一步研究和探索如何保证模型预测的准确性,如何处理模型可能出现的误差,如何在不同的应用场景中调整模型参数以满足特定的需求。


对于汽车智能的宏伟主题来说,路面真的很难。有时候目标足够重,问题足够多,这么多技术都是发明创造出来的,每一个技术术语的背后,都是成长的印记,也是试错的痕迹。然而,正是技术的坚持,智能化才逐渐有了更加明朗的未来。


本文来自微信公众号“极智GeeTech”,作者:半山,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com