对话理想郎咸朋:我们已领先于特斯拉
特斯拉 CEO 埃隆马斯克在 2023 每年都有一个特斯拉智能驾驶软件发起。 FSD V12 直播活动——基于最新的端到端技术,视频中的特斯拉软件删除了许多工程师规则代码,然后选择了主神经网络算法。车辆指示车辆在哪里减速,识别交通指示灯,以及道路上的任何参与者,并根据自主视觉和神经网络做出自主决策。
这种技术随后引起了从行业到科技爱好者,甚至是汽车普通消费者的极大讨论和兴趣。
它是智能驾驶新一轮的范式复苏。直到今天,许多观点仍然出现在中国市场上:
端到端技术的出现,解决了很多做智能驾驶的汽车公司的起点。每个人都再次站在起点,开始了一场数据和计算能力的长跑。
端到端技术受强数据的影响,模型建设和数据获取的数量,尤其是高质量的数据获取,影响了技术的快速迭代。
在中国市场,拥有“主场优势”的自主汽车制造商开始了另一场智能驾驶长跑,同时认为特斯拉 FSD 在这一阶段,领先优势将被刮平的观点不在少数。
理想汽车智能驾驶研发副总裁郎咸朋博士也认为,从技术结构来看,最新的理想方案与特斯拉没有太大区别,或者更先进。因为理想是有的。 VLM 有系统的模型 特斯拉只是有一个系统。 1 的端到端。
理想汽车的端到端模型是 One Model 集成端到端,与市场上其它车企的端到端有些不同。
常规的端到端技术是用人工智能模型和机械自学的形式来代替智能驾驶过程中的感知、规划和控制模块,从视觉“输入”端到智能驾驶系统最终控制车辆自行车的“导出”端,所有这些都由模型处理。在这个过程中,一种纯“端到端”的技术不再设置规则代码,而是成为一个完整的黑盒。
然而,包括特斯拉、华为和小鹏在内的许多汽车公司仍然会设置一定的底层算法,负责安全冗余。感知和规划控制可能是一个相对独立的模块,接口仍然需要手动定义和连接。
One Model 一体化的端到端意在将感知、规划和控制模块放在一起,在理想的内部称为系统。 更像是一名司机,迅速地执行端到端的决定。
以前在智能驾驶应用领域,端到端往往会遇到上限高但下限低的问题。比如特斯拉在美国加州的行业龙头企业,检测非常顺利,表现得像个人类司机,但是一旦进入不熟悉的地区,就会出现难以解释的规控决策。
它是端到端的一个缺点。
理想的做法是引入系统 2 —— VLM 视觉语言模型,再往前迈一步。
按照理想的说法,VLM 视觉语言模型是世界上第一个在车端芯片上成功部署的大型模型,具有应对复杂场景的逻辑思维和管理能力。
除了 One Model 端到端外,系统 2 —— VLM 这是一个辅助系统 1 另外一套模型算法,做好规划决策。基于 VLM 的系统 2 能够提供理解复杂环境、阅读导航地图和理解交通法规的能力。
郎咸朋给这个组合一个比较流行的解释: 1 就像司机一样,而系统 2 是驾校教练。系统 1 完全依靠自己的视觉感知,执行操作,系统 2 系统需要长期学习知识。 1 提示和通知。
他的团队率先提出了理想汽车智能驾驶高级算法专家詹邈的概念。模仿认知心理学家、诺贝尔获得者丹尼尔 · 卡尼曼-他认为人脑有两个系统。第一个系统基于经验和直觉,第二个系统基于综合学习积累的逻辑推理能力。
该系统为整个理想的智能驾驶服务,这也使得理想的智能驾驶方案与其它车企完全不同。
特斯拉是美国市场的市场 FSD 在计算率和数据方面都是领先的。
但是在中国市场上,理想的策略似乎是复制一条“中国特斯拉智驾之路”,使自己的地位更加靠前。
郎咸朋说:“从中国的计算能力和训练数据来看,我们认为至少从现在开始,我们领先于特斯拉,因为特斯拉必须在中国建立,无论是数据的合规性,还是中国的一些约束,以及训练计算能力的部署。"
在数据测试步骤中,理想还引入了一套世界模型系统。
理想情况下,世界模型支持大规模、高速迭代的新一代理想智能驾驶,提供自动化。 AI 能力评价体系,通过重建技术,将用户遇到的问题场景变成“错题本”,通过生成技术将用户的真实驾驶场景举一反三为“模拟问题”。两种技术保证了错题在模型评价中不再出错,同时具有优秀的泛化能力。
基于理想 One Model VLM 全球模型的技术方案,这也使得全新一代的理想智能驾驶产品进入了“监督自动驾驶”的新阶段。
理想是第一个将军 VLM 部署到 Orin-X 芯片企业,也是首家迈出双系统架构的汽车企业。理想在中国已经有了近百万的销售规模,这必然会增加有效数据的比例。目前,理想汽车的累计练习里程已经超过了 22 亿公里,预计到 2024 年末将超过 30 1亿公里,理想汽车目前的训练计算率达到 预计5.39EFLOPS 2024 年末将超过 8EFLOPS。
但是,业界对端到端技术的应用和前景仍在争论不休——有些人认为没有 500 亿做不到智能驾驶。有人认为,至少在未来几年,基于规则的模型算法和单个模块功能的端到端仍将并行,纯端到端仍然是无稽之谈。
在一定程度上,理想客户体验团的测试结果证明了这条路目前的合理性。无论如何,理想汽车率先迈出了这一步。
理想汽车智能驾驶研发副总裁郎咸朋博士,理想汽车智能驾驶高级算法专家詹?
以下是与理想汽车智能驾驶R&D副总裁郎咸朋博士、理想汽车智能驾驶高级算法专家詹邈的交流速记。对话不修改初衷的编辑:
问题:市场上每个人都说自己是端到端,什么才是真正的端到端?
詹锟:端到端是一种R&D范式。顾名思义,它意味着完成一项任务。从最初的输入端到最后的输出端,中间没有其他过程。从输入到导出使用一个模型是端到端的本质含义。只要符合这个意思,我们就可以称之为端到端。
现在理想汽车是一体化的。 One Model 端到端,通过直接传感器输入,模型推理完成后,直接给出轨迹规划来控制汽车。这是一个整合的端到端,中间没有其他步骤。端到端的另一种方法是在中间分为两个模型。模型之间的桥接是一个信号。输入是一个感知模型。将感知结果输入到控制模型中,组合成一个模块化的端到端。这也可能被称为端到端,但我们认为这种端到端并不是真正的端到端。理想汽车的端到端想要解决中间信息的损失。如果中间增加了人工信息消化过程,效率可能没有那么高或者能力上限有限,所以我们认为一体化的端到端是更本质的端到端。
问题:我们是否受到特斯拉的启发,与传统的模块端到端有什么不同?
詹锟:特斯拉确实存在 2023 年初提到端到端,也是马斯克在推特上表示,它体现了一个完整的从输入到导出的直接控制模型。每个人看到这个消息后都很震惊,因为这个物品并不是他们刚刚提出来的, 2016 2008年,英伟达的一个模型提到了端到端,并发表了一篇论文,但效果一般,只解决了一个特别简单的场景。在当时的计算能力和模型规模下,大家都认为这条路不可行。
到 2023 年,在新的 transformer 这种结构增强了超大算率,特斯拉做出来之后,又可能出现一种新的复苏范式。端到端并非特斯拉首先提出的,而是向更多的增长方向推进。当我们看到后,内部也在思考,与之前的模块化模型相比,端到端更实质性的方法是减少各种信息的冗余。对于无图,我们接近于模块化的端到端,我们感知到了一个大模型,实际上是一个模块化的端到端模型。即便如此,我们发现端到端的模型仍然需要规则,仍然有分模的数据和分模的战略任务。
这一次,我们在讨论和构思新方案时,提出端到端必须更加彻底,更加实质。理想汽车拥有丰富的数据,我们认为这些信息可以支持我们做得很好,这是我们的优势。所以我们选择了端到端一体化架构,挑战更大,难度更大。它的上限很高,但缺点是训练比分模块更难,包括数据比例和训练方法。 know-how 我们需要探索和挖掘,但是我们仍然坚决地选择了困难和正确的道路。
问题:现在各大品牌都提出自己是领导者,理想汽车也在说自己已经跻身智能驾驶的第一梯队。如何评价这些企业在市场上的端到端技术实力?
郎咸朋:从技术角度来说,对于普通消费者来说,他们并不关注是有图还是无图,端到端还是非端到端。最后,我们关注的是商品和使用的感觉,这是产品的价值。所以,我们不想和任何人比较,而是希望能为我们的用户提供更好的产品和服务。高精度地图之前的高速公路配合 NOA,高速 NOA 感觉满足了顾客的使用需求。下一步,我们正在做城市。 NOA 在这个过程中,我尝试了许多方法,其中一个非常简单的想法就是用图片做城市。 NOA,但发现没有一位图商能提供城市的高精度地图,只能提供轻图。但是我们认为轻图是不够的,因为一旦需要迭代图,就会出现时效性和能否真正使用的问题。在某些地方,我们不能让用户觉得今天可以使用,但是明天不能使用。
最后,我们决定做无图。之前的无图方案是感知、规划、分模块的方案,里面有很多人工规则和实车测试,时间很难,更不用说预算投入了。当模型迭代出来的时候,没有一两年是不可能实现一年四季的各种情况的,客户也不可能等这么久。所以我们重新迭代到端到端 VLM 技术结构,我认为这一技术规范,本质上是人工智能方案,它不是设计出来的,而是自己成长起来的。
另外,今天我给大家介绍一下世界模型的内容。在我看来,这种能力是实现自动驾驶快速迭代最重要、最必要的保证。如果一个模型迭代需要大量的汽车、人和时间通过传统的方式进行测试,但现在使用生成和重建技术收集之前出现问题的场景,建立错误的情景库。也就是每一次发布前,简单的错题都要进行1000多万公里的检测,而且这是一本有效的错题本,不是随便跑的路试。此外,我们还可以生成场景,模拟场景,这也是数以千计的场景测试。现在用这种方法进行模型迭代比以前全车或路试的方式要可靠得多,而且一年四季各种场景都可以包含在内。我们不知道其他同行品牌是否会这样做,但是我们完全是根据用户的需求来做的。我们的迭代技术并不是为了技术而技术,而是这种技术确实可以满足用户的需求,带来更好的产品体验,所以我们会这样做。
问题:不久前有人提出“没有” 500 亿做不好智驾”的观点,你对此有何看法?
郎咸朋:关于 500 亿,需要判断是一次性投资还是长期投资,就像我们今天提到的,每年都有。 10 如果在智驾研发中连续投资亿美元, 10 一年的话就超过了 500 亿的。
端到端 VLM 技术结构是一个分界点。以前我们还在用传统的方式进行自动驾驶,从这一代开始,就是真正用人工智能的方式进行自动驾驶。下一步做自动驾驶的研发,核心竞争就是是否有更多更好的数据和配套的算率来训练模型。而且计算能力和数据的获取,要看花费多少,投入多少资源。而且有些东西是花钱买不到的,比如训练数据,训练里程,各车企都有自己的数据,彼此之间不会互相共享。
另外一项需要投资的是计算率,我们现在 5.39 亿 EFLOPS 计算率,到今年年底估计 8 亿 EFLOPS,这已经不是 10 十亿人民币,而是 20 1亿元的花销,一年就会消耗掉, 20 亿人民币。将来进入到 L4 在这个阶段,每年的数据增长和计算能力增长都是指数级增长,这意味着每年都需要 10 亿美元(六、七十亿人民币)。而 5 2000年以后,这需要不断的迭代,在这样的量级下,一个企业的利润和收益无法支撑投资是非常困难的。所以,现在不需要关注自动驾驶投入了多少亿元,而是从本质上看,是否有足够的计算能力和数据支持,然后看要花多少钱。
问题:如何保证模型在信息量不是很大的情况下的安全性,从概念上看,我们现在是否同样属于一种“” Two-Models "?
郎咸朋:“安全”是一个备受关注的问题,是否存在合作问题,是否存在单独的安全模块等等。每个人都有这些问题,因为每个人都站在过去的非 AI 自动驾驶R&D的视角是思考。比如我以前骑马,他会问我车上有没有马鞍?是因为人们还没有真正理解什么是真正的。 AI 什么是非的做法 AI 这是做法的第一点。
第二,现在很多人都说自己是端到端模型,但是真正做端到端还是要看两个能力:有没有足够的数据,有没有足够的算率。否则,我认为很难做出真正的端到端,因为端到端是 AI 的做法。
三是端到端能力的上限和下限都很高。我来对比一下,现在 CNN(深度神经网络模型)出来之前,大家还在用传统的机器学习方法做一些工作,比如我们熟悉的图像分类任务。 SVM 类算法遇到了瓶颈, CNN 他们一出来就被碾压了 10% 的提高。我想表达的是,每个人都没有真正理解端到端的能力,我们不会贸然推给内部测试用户。
我们使用非 AI 在方式上,我们应该在垂直控制的细节上考虑相当多的情况,这样在设计情景规则时就应该设置相当多的条件,以及在某些环境下应该采取什么策略。但当我们第一个版本的端到端模型训练出来的时候,我发现它在每个路口或者需要垂直控制的情况下都会很舒服。对于特殊情况,我们没有进行调试,而是模型本身训练出来的能力。我们可以发现,我们在制定规则时存在着很大的问题,因为场景过于多样化,我们无法对所有场景进行规则设置。但我们用 AI 当我们以一种方式制作端到端模型时,我们会发现它有这种魔力。如果我们给它数据,它可以真正学习这些人的驾驶经验,不仅可以学习上限,还可以大大提高下限。虽然它仍然存在着自己的局限性问题,但是我们处理它的方法不再是设定规则,而是给它更多更好的数据。
同样,我们在控制模块上也有自下而上的策略。因为我们的端到端都是传感器输入到轨迹导出,导出轨迹后会转换成制动模块,所以我们在这个地方有一个安全的自下而上的策略,比如它打算急转弯。 180 ° 我们会对他进行专项约束,但这类规则却很少,与之前的做法相比,可以忽略不计。
与此同时,我们提高了安全的底线和能力上限,我们的做法是不断地给它高质量的数据,它一定会学到许多安全的驾驶习惯。
问题:如何保证给予端到端? VLM 数据是干净的吗?
詹锟:无论是端到端还是端 VLM,大模型一直强调高质量的数据,数据是最重要的。所以我们的第一步就是清理信息来源。我们对驾驶数据的选择非常严格。我们对每个车主都有一个内部评分,包括每个层面,并加权,比如是否违规驾驶,是否长时间压线,是否停止线,是否在驾驶过程中突然打方向盘,或者是否不舒服等。,并结合各种指标进行最终选择。 3% 作为“老司机”的用户。即使是之前的理想大规模数据, 3% 它也是一个相对较大的数据水平,仍然可以保证我们得到的数据非常好。至少驾驶行为是标准化的,舒适合理的。把这些信息交给终端就好了。
第二层还有选择。在模型训练过程中,我们还需要匹配和分类模型样本的一些场景。有很多极端和困难的场景,会有评估模型、评估方法和一些规则来清理数据,并对每种类型的数据进行详细的标签分类。
在最后一层,我们会知道哪些样本在训练过程中难以学习和调整学习方法,包括我们会刻意构建一些生成信息来加强学习和比较学习。对我们的数据做一些学习方法的调整,这样我们就可以从端到端的整个数据。VLM 所有数据都经过良好的验证和清洁,给出的模型将会更好。这个过程不是一蹴而就的。
郎咸朋:还有一个问题,脏数据。我们的数据量训练还是比较大的,即使我们身后有很小的脏数据,因为 AI 技能训练并不是一个污点就能污染整个效果,所以只要准确的数据量足够大,对数据的影响一点也没关系。
问题:近年来,智能驾驶的技术战不断变化,经历了几次大迭代,从端到端。 VLM 这将是一个具有长期生命力的框架吗?
郎咸朋:端到端 VLM 这是一种模拟人类思维认知的结构,因为我们做人工智能,最终希望能实现拟人或类人。看完《思考,快与慢》这本书,我受到了极大的启发。最后,我想知道人们是如何认识和思考的。我们认为目前的人工智能框架非常合理,我们很高兴看到。我们提出后,业内很多公司也开始提到双系统理论的好处,试图跟进。而双系统理论,不仅可用于自动驾驶,而且是未来人工智能甚至智能机器人的范式。自动化驾驶可以说是一种轮试服务机器人,但其工作范围是道路。所以我觉得有一定的长期行为力,但是技术的发展是无穷无尽的,我们会对先进技术保持敏捷的感知,如果有新技术我们会跟踪。
问题:理想现在感觉自己和特斯拉智驾的差距有多大,大概什么时候能赶上?
郎咸朋:去年,我回复了半年的差距,今年可能会再小一点。首先,从技术结构上来说,我们和特斯拉没有太大的区别,或者更先进一点,因为我们有 VLM,有系统 特斯拉只是有一个系统。 1,端到端。其次,从中国的计算能力和训练数据来看,我们认为至少从现在开始,我们领先于特斯拉,因为特斯拉必须在中国建立,无论是数据的合规性,还是中国的一些约束,以及训练计算能力的部署。从这个角度来看,我们在中国和特斯拉的差距可能没有那么大。我们也特别希望特斯拉能够加入进来,互相学习,专注于提高自己。
提问:有一种观点认为智能驾驶。 AI 这条路不太正确,不认为这条路可以通过,因为 L2 更加注重低成本或实用性, L4 只有经过安全处理后才能实用,所以量产车可以做吗? L4?
郎咸朋:首先,我们认为一切都取决于用户的需求和用户的价值。任何理想汽车制造的产品都必须超越或满足用户的价值,我们只有在客户认为有价值的时候才能做到。我们认为用户必须需要自动驾驶,所以我们不能设计客户只能在成都开车。 L4,其他地方无法打开。
其次,渐进或跳跃的技术路线是每个品牌都可以讨论和找到自己的技术路线,但理想汽车肯定会选择一条满足用户需求的技术路线。现在我们选择使用人工智能进行自动驾驶。以前叫辅助驾驶就是系统协助人去驾驶,主体是人。但是到目前为止,端到端 VLM 经过这个阶段,我们认为是变成了自己驾驶的汽车。训练完整的模型后,模型本身就有能力做好这辆车。我监督这辆车哪里不行或者需要接手提醒,但主体一定是车,人是监督的辅助角色。如果达到这个水平,就会满足我们用户对自动驾驶的需求,这是我们的逻辑。
问题:理想汽车对高级智能驾驶有收费计划吗?
郎咸朋:标准和免费是从第一天开始进入智能驾驶的理想策略。“有监督的自动驾驶”对所有人来说都是理想的。 AD Max 所有车主都不收费。交付量好,企业运营稳定,智能驾驶研发资源充足。交付量是一个非常重要的衡量标准。对我们来说,它可以为自动驾驶提供更多的车辆训练里程,而不是简单的卷轴交付量。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




