谈论DeepSeek、痛苦回忆，闺女成长，创业：李想最新采访记录

2025-05-09

5月7日，理想AI 第二季Talk上线。距离AI 在过去的130天里，Talk的第一季人工智能世界日新月异。理想汽车CEO兼董事长李想分享一下近期对人工智能的探索，以及对创业和个人成长的看法。

谈论梁文锋和DeepSeek：和梁文锋聊过一次，觉得自己特别自律。

提到DeepSeek和梁文锋，李想。

李想说：“我只和他(梁文锋)谈过一次，是去年九月，印象特别深刻，应该是， ChatGPT-o1 发布前几天，我个人觉得他有两个特点。首先，我认为他是一个特别自律的人，比较明显，在与他交流的过程中其实可以看到。其次，我认为他实际上会在全世界范围内去探索和学习，然后这样一个实践得很好，最好的方法论的人。”

李想说，DeepSeek的出现极大地帮助了他们加快VLA(视觉语言行动模型)的发展。由于DeepSeek的开源框架直接使用，原本计划于2025年9月完成的VLA语言模型部分的R&D进度提前了9个月。

李想说，DeepSeek让他觉得应该为社会做出一些贡献，不允许行业如此卷曲，而开源星环OS“说白了就是感谢DeepSeek”。

谈论特斯拉FSD：基本功很扎实

提到特斯拉FSD进入中国，李想。

李想表示实测发现特斯拉“大概在用”FSD 12.5 以前的模型，而这并不是特斯拉的真实能力，与特斯拉的真实能力相比还有很大的差距。FSD 13.0 未来的能力还是很强的，可以看出特斯拉有很强的基本功，包括感知距离、运行帧率、车辆控制的稳定性。

李想说，美国很多顶级企业，比如苹果、特斯拉，基本功特别扎实。在今天的内卷环境中，包括外部不确定的环境，是每个企业脚踏实地练习基本功的最佳时机，在人工智能时代，基本功是不可能的，也是不可跳跃的。

第一次公开谈到闺女：她是自己和妻子的第三个支点。

李想谈谈她的大女儿。他说:“从去年年底春节开始，最大的变化之一就是我的大女儿构成了我们的第三个支持。她14岁了，对事物的认知发生了很大的变化。她自己的三观开始有效、特别健全地形成，超出了我们的预期。”

李想说闺女有实力做特别好的沟通，对自己的人生规划，爱好，对人和事的理解，这特别有趣。

谈论辅助驾驶：现阶段比较像黎明前的黑暗。

在谈到辅助驾驶的阶段时，李想说：我感觉黎明马上就要来了，但首先要经历一个黑暗的过程，之所以会有黑暗，是因为要迎接黎明。今天就是这样一个阶段。”

他指出，正是因为辅助驾驶行业遇到了问题，我最喜欢和快乐的方式就是处理行业无法解决的问题，这是我们自己坚信的。

当被问及为什么人类必须辅助驾驶时？

李想回答：只要人类会雇佣司机，人工智能技术就会把一些类似这样的功能和角色变成真正的生产力和生产设备，然后取代它们。

谈到痛苦的回忆：曾经被造谣破产，第一季度亏损近二十亿

当李想谈到他痛苦的记忆时，他说:太多了。全网黑公关都说理想车倒闭了。那个季度，我们损失了近20亿元，从来没有损失过那么多。突然从巅峰跌到低谷，好处就是我说的。当我们意识到许多能力不足时，我们弥补了许多能力。但正是因为这件事，我们的调整带来了2023年近三倍的增长，我们直接实现了1200亿元的收入。

谈创业：创业的确不容易，但没有必要苦哈哈哈

对创业的痛苦回忆，李想表示，为了让自己拥有更好的正能量，还是尽量只保留那些有意义、美好的片段。

即使是不好的东西，也会以不同的方式表达出来。比如被黑被打，就会变成“看，正是因为这件事，我们增加了三倍，我们获得了其他新力量所没有的能力，面临着其他新力量所没有的考验”。李想说这是一种心态。

他仍然觉得创业真的不容易，但是没有必要苦哈哈。苦与甜是一枚硬币的正反面，取决于选择哪一面。

谈成长：做汽车之家的时候我说做好生意就行了，最后其实折在资本上。

在做汽车之家的时候，李想说做好生意就行了，资本根本不重要，最后实际上折在了资本上。

当你是一辆理想的汽车时，你非常注重资本。请最好的FA(财务顾问)，最好的律师事务所，股权结构的设计和投票权。今天，我们可以看到，在所有的新势力公司中，理想汽车的股权结构、治理结构和资本现金管理都是最好的。“我没有改变我的业务，但我实际上增强了我的能力。”

谈到十年来最深刻的情景画面：理想ONE和理想L9发布

七月理想将迎来十周年，谈到十年中最深刻的情景画面是什么，李想称第一幅最重要的画面，是2018年理想ONE首次发布，直到2019年4月，上海车展首次正式展示，包括价格。“那是一个非常重要的时刻。我们真的可以做一辆车，这辆车特别受用户欢迎。在上海车展的展厅里，我们是客流量最大的展台。因为我们什么都没做。”

李想说，另一个是2022年发布理想L9。“我认为这绝对是世界上最好的产品。今天，在2025年，我们可以看到至少有5家公司正在建造与理想L9相同的产品，因为当时理想L9的成功。”

下面是采访记录：

"人工智能发展得很好，但是我每天的工作时间并没有减少。"

张小珺：距离上一次AI。 talk已经过去130天了，你最大的进步是什么？你们有没有成为更聪明的李想？

李想：在这130天里，我更高兴看到的是整个中国的进步，包括DeepSeek、包括千问在内，中国与美国的距离已经基本提升，无论是底座模型、reasoning推理模型还是背后的多模式。而且中国公司做这些模型的效率也比较高。我们做了很多深层次的工程改造，无论是在预训练、实践层面还是后面的整个推理层面。我觉得也让中国人工智能领域更加自信，包括后来在Agent(智能体)上看到一些惊喜的突破，不管是Manus还是Genspark，但是这些方面都做得很好。

就我们自己而言，这也建立了我们对AI做得更好的信心，同时，让我们更加坚信这条路是对的。

张小珺：那你有没有变成更聪明的李想？

李想：变化不大。假如从现实的角度来看，人工智能发展得如此之好，但是我每天的工作时间并没有减少，还在增加。

张小珺：这是为什么？

李想：大部分人仍然把它当作一种信息工具来使用。如果是信息工具，其实AI作为一个信息工具并不完美，因为它最终必须给你一个next。 token(下一个词元)，一定要给你一个结果。并且每个人今天使用时都会先点击网上搜索，先通过Rag(搜索增强生成)在网上搜索一些索引信息。但事实上，搜索到的信息源往往是扭曲和不准确的，所以在最终的推理过程中(虽然)是认真推理的，但你可以清楚地看到，这个过程和结果已经开始出现问题。因此，从某种意义上说，如果我们不改造这种机制，它的某种意义仍然是熵增加，增加大量无效信息、无效结果和无效结论。

这是一个巨大的挑战。我只是在思考一个问题，或者我们应该从真正的用户价值来看待它。如果大家都在拼命使用AI，大家都在投资AI，但是我的工作时间没有减少，工作成绩也没有提高。这个问题在哪里？所以这也是我们过去几个月内讨论了相当多的问题。

对于每个人来说，信息工具实际上更重要的是参考。再往下，AI变好后，就会变成辅助工具。就像我们今天做的辅助驾驶一样，我们用人工智能的语音在车上导航、搜索美团、获取音乐，会让我们更有效率，但还是离不开我们。那么这个时候，这个角色更像什么呢？确实比原来的体验好，但是是一个辅助工具。

什麽时候才能真正改变我们的工作成果，减少工作时间，它必须成为生产设备。我认为Agent最重要的判断条件是它是否是生产设备，是否真的可以替代我完成专业工作，产生有效的生产力，以及我工作中最重要的8小时。这是我下一步对Agent最重要的衡量，也是我认为Agent的意义所在。

张小珺：信息工具，辅助工具，生产设备，这是你对工具的三个等级？

李想：是的，我认为把人工智能变成生产设备，才是真正爆发人工智能的时刻。

"理想的星环OS开源，纯粹是感谢DeepSeek."

张小珺：你从DeepSeek那里学到了什么？

李想：DeepSeek简单地利用了人类的良好实践。比如DeepSeek V3是一个671B的MoE模型(混合专家模型)。MoE是一个非常好的结构，相当于把一堆专家结合起来，然后每一个都是一个专家能力。它是如何建立这种专家能力的？DeepSeek展示了一个很好的实践:第一步是先做研究。

这一点非常重要。在任何时候，当我们想要改变和提高我们的能力时，第一步必须是从事研究，第二步是研发，第三步是表达我们的能力，第四步是能力成为业务的价值。这四个步骤是一个极简主义的人类实践，但我们经常忘记，直接开始研发，而不是研究。

我们自己也受益匪浅。无论是在端到端和VLM(视觉语言模型)上，还是今天做VLA(视觉语言行动模型)，我们的研究团队实际上表现得非常好。包括你可以看到像李飞飞这样的国外。事实上，当她引用辅助驾驶时，她经常引用我们关于辅助驾驶领域的研究论文。这其实很重要。研究通过后，R&D效率会变得非常高。

张小珺：当DeepSeek风靡全球时，你是如何度过这个春节的？

李想：春节过得很好，还带着孩子去看《哪吒2》。我的印象应该是1月下旬DeepSeek。 R1在线，然后在后面开源。我们对DeepSeek做了很多研究，包括整个练习和推理的效率，以及部署MoE模型来测试内存占用。

更有意思的是，我没有上去直接和模型团队聊天。我先和谢炎(理想汽车CTO)聊了聊。我说我们要做VLA，然后VLA的一个非常重要的计划是在今年9月做一个非常好的语言模型之前，我们可以下来训练VLA。那么我们在九月份做的模型，能力是否比DeepSeek好？ V3加R1更强？并且开源如此彻底，我们是否应该站在巨人的肩膀上去做？接着谢炎说一定要这么做。

当时我们担心陈伟(理想汽车底座模型负责人)会怎么想，因为压力挺大的。然后陈伟比我们更坚定。他说这将加快我们的下一步工作。我们应该在此基础上加快VLA，加快端到端的多模式进步。研究团队也在研究如何在芯片上达到同样的练习和推理效率。每个人都在同步工作。

由于理想的企业基因，我发现大家并不纠结，还是要为用户推出最好的产品和服务。拥抱DeepSeek的过程比我们想象的要快，所以这就是为什么VLA今天实际上比原来预期的要快。

张小珺：你觉得DeepSeek创始人梁文锋怎么样？怎样才能找到人类的良好实践？

李想：我只和他聊过一次，是去年9月，印象特别深刻。应该是ChatGPTo1发布前几天。我觉得他有两个特点。首先，他是一个非常自律的人。其次，他是一个会探索和学习世界上最好的实践和方法论的人。

张小珺：你如何理解自律？

李想：最大的特点就是能够坚持这些你相信的东西，能够坚持这些好的实践，能够抵抗人性的一些懒惰，走捷径。包括我们的开源在内，这让我们更加钦佩他。

我认为DeepSeek的出现对我们加速VLA有很大的帮助。过去，我们计划在今年年底达到一个体面的语言模型，以满足要求。但是DeepSeek一开源我们就加快了9个月，它给我们带来了巨大的收益和帮助。

我们得到了这么大的帮助，所以我们在想我们能为社会做些什么，所以我们开源了自己开发的全车操作系统的理想星环OS。没有大家想象的那么复杂，我自己的心，包括谢炎，也就是说，DeepSeek给我们带来了如此大的帮助，我们应该为社会做出一些贡献，不允许行业如此卷曲。说白了，纯粹是感谢DeepSeek。

张小珺：这很有趣。DeepSeek的感觉带来了更多的善良和善良。

李想：是的。

张小珺：理想星环OS自己研究了四年吗？

李想：是的，那绝对是做得好，明显是好的。假使你做得不好，出去开源难道不丢脸吗？

张小珺：你有没有想过为什么DeepSeek不是你做的？

李想：我只能做最好的自己。我的人生经历，从个人网站，到IT网站，到汽车网站，最终希望改变汽车行业，推出更好的产品。事实上，我一直在延伸我的长板。事实上，他(梁文锋)的延伸线是从人工智能开始的，他在浙江大学就是人工智能，这是他的延伸线。我也相信量化交易的企业对整个模型的能力和理解，对自己项目的能力，不会比任何互联网企业差，甚至更强。

理想去追求安卓时刻的辅助驾驶？

张小珺：既然都有DeepSeek，理想为什么还要做底座模型？

李想：因为我们的业务并不意味着做一个好的语言模型就足够了，我们的车需要有对话和多模式，所以我们仍然需要训练一个适合我们需求的底座模型，包括我想做VLA。因为在VLA中，即使V(vision视觉)和L(language语言)与正常情况不同：我需要3Dvision，以及超清2Dvision，然后token(词元)需要预训练，必须涉及到更专业的汽车领域的语义语料，交通领域的语义语料，家庭用户的语义语料料料，然后进行训练。

大家在做VLA训练的时候，经常会说我想把VL(视觉和语言)连在一起，然后把VL(视觉和语言)的搭配语料料装进去。然后，无论是OpenAI还是DeepSeek，它都没有这样的数据，也没有这样的场景和需求，也没有处理这样的问题，所以我只能自己做。只是好处在于这个language在VLA中，虽然我能站在巨人的肩膀上，但它只是我的一部分。

张小珺：所以一方面拥抱DeepSeek，另一方面加大了底座模型团队的力度，对吧？

李想：是啊，增加了投资。

张小珺：加多大？

李想：训练卡比他们今年预期的要多3倍。

张小珺：你现在给底座模型打多少分？但愿2025年有多大提升？

李想：结果还没有出现。只有几个月啊？没有捷径，虽然我们借用了一些能力，但是你不能直接去吃第十个包子。如果你做不好规则算法，你根本不知道怎么做端到端。如果你的端到端没有达到一个非常极端的水平，你甚至不知道如何训练VLA。

张小珺：你说DeepSeek更像是Linux推出的，而理想追求安卓时刻？

李想：这是一个描述。例如，安卓实际上是一个基于Linux的手机操作系统。然后我们以语言为基础，我们的VLA就是把vision做得最强，然后做好action(行动)，然后借助Lision。（language），这就是语言的能力。

在汽车或交通领域，VLA更像是一个更重要的大模型或操作系统，这是我们的机会。

张小珺：今天的辅助驾驶实际上已经到了一个新的十字路口，有些人甚至认为辅助驾驶应该停止。您怎么看？

李想：这么多年来，我们从规则算法做到了端到端。 VLM，接着今天真的进入了VLA时代，我觉得更像什么？更像是黎明前的黑暗。我感觉黎明马上就要来了，但首先要经历一个黑暗的过程，之所以会有黑暗，是因为要迎接黎明。今天就是这样一个阶段。

正是因为辅助驾驶行业遇到了问题，我最喜欢和快乐的方式就是处理行业无法解决的问题，这是我们自己坚信的。为了解决电池成本高、充电困难的问题，我们推出了增程。为了解决充电慢、等待时间长的问题，我们推出了5C。我们愿意解决包括操作系统在内的各个行业遇到的问题，这也是由于传统的车辆控制、智能控制操作系统性能差、发展缓慢、芯片匹配时间长等问题。这就是我们的价值所在(存在)。

张小珺：为什么人类需要辅助驾驶？为什么技术不能就此停止？

李想：只要人类会雇佣司机，人工智能技术就会把一些类似这样的功能和角色变成真正的生产力和生产设备，然后取代它们。

就顾客语言而言，VLA到底是什么？

张小珺：VLA是什么？别使用技术语言。

李想：VLA(视觉语言行动模型)机器人领域也在谈论，对理想汽车而言， VLA是一个像人类司机一样工作的大型司机模型。到达VLA(大型司机模型)不是一个突变的过程。事实上，它是一个进化过程，经历了三个阶段。

第一阶段:从2021年开始，我们通过对机器学习的感知，结合后面的规则算法，包括分段规划、控制和执行这些规则算法。

第一阶段更像什么？就像昆虫动物的智力。它有既定的规则，也依赖于高精度地图，更像是蚂蚁行动和完成任务的一种方式。它能够理解的世界相当有限，效率相对较低，也是一件非常麻烦的事。它(规则算法)就是这样一个大脑，包括它的整个模型，大概只有几百万个参数，它就是这么小的大脑，基本上不可能让它完成复杂的事情。因此，你不断地限制、限制，几乎把它变成了一种轨道交通方式。它和蚂蚁非常相似。

第2阶段：我们从2023年开始进行研究，2024年推出端到端。端到端更像什么？端到端更像是哺乳动物的智慧，比如马戏团里的一些动物，比如人类学习如何骑自行车。它学会了人类的这些行为，以及人类如何采取各种行动来驾驶。然而，它不理解物理世界。它只是看到了什么样的三维图像，知道自己的速度，给出了什么样的轨迹。因此，它应对大多数泛化是没有问题的。面对它从未学过的特别复杂的东西，它实际上会遇到问题。因此，此时我们还将配合VLM视觉语言模型。然而，我们可以使用的视觉语言模型具有特别有限的交通能力，因此它们只能起到非常有限的辅助作用。

对于VLA司机来说，这是一种完全人类的运作模式。

它将使用3Dvision和2D的组合来看待整个真实的物理世界，就像人类一样，它还包括它能够理解导航软件是如何运行的，而不是像VLM那样只看到一张图片。另外一方面，它有自己的整个大脑系统，不仅可以看到物理世界，还可以理解这个物理世界。它有它的language，然后它还有它的CoT(思维链)和推理能力。

在第三阶段，它可以像人类一样真正执行这样的行动。这是汽车辅助驾驶领域的VLA(视觉语言行动模型)。我们称之为VLA司机模型。

张小珺：VLA司机大模型三个部分的关系是什么，以及如何训练？

李想：首先实际上是训练的环节。训练的第一部分是什么？只要vision和language的底座训练出VL(视觉和语言)的底座。现在我们正在训练，现在的版本，是一个32B，就是一个320亿云的底座模型，所以先训练这个。在这里，这些语言模型与过去有什么不同呢？首先，我要放更多vision的语料，放在vision的token里。vision包含两部分，一部分是3Dvision，物理世界3Dvision应该安装在vision中，另一部分是高清和2Dvision。由于今天的话，每个人都可以看到各种多模式的开源VLM，它整个2D。 vision的清晰度太低，所以距离不够。那么我们装进去的图像分辨率基本上提高了10倍。我认为这是相当重要的。这个部分是vision的token和语料。

二是要放入language，这方面有足够的语料，与交通、驾驶有关。它是language的一部分。

第三个很重要，可能很容易被忽视。我们应该把很多VL(视觉和语言)的语言材料放在一起，也就是三维图像和对世界的理解语义应该同时产生。比如我举个例子。我想把导航地图和车辆对导航地图的认知放在一起。

张小珺：这是原始数据吗？

李想：没有原始数据。

张小珺：这是你自己的？

李想：例如，我想把它放进去，看看人类在导航后做了什么判断，然后判断我们的车辆是如何记录的。把这个语料放进去。事实上，在整个VL(视觉和语言)基础模型训练中，有三个部分，即vision数据、language数据和VL联合数据。接着，它形成了VL的底座。与此同时，我要为这个底座做些什么？在3.2B端侧面，我要蒸馏，然后变成蒸馏模型。由于我要保证它的启动速度足够快，然后不管是2个Orin-X还是Thor-U都能顺利运行。蒸馏后是3.2B，MoE(混合专家模型)模型由8名专家组成。如果一个完整的模型直接运行3.2B，双Orin-X和Thor-U的帧率无法达到，token的整体输出率无法达到，这是第一步，这是预训练的环节。

第二步是什么？第2步是进行后期训练。什么是后训练？之后的训练实际上是我把它变成了VLA司机的大模型。我要把action放进去。action的部分后训练是什么？事实上，这仍然是一种模仿学习。尤其像你去驾校学开车，就等于我训练VLA，把它组合成一种VLA端到端的方式，这是第二部分。这个时候模型的规模就会在3.2B扩展到接近4B这样的规模。

与此同时，它一方面是一个VLA，可以直接从视觉、理解、最终导出。但是我们的CoT(思维链)会很短，我不会做超长的CoT。我的CoT链通常是两步到三步，所以我不会做更多的事情。否则延迟太长，无法满足交通或机器人安全。另外，在我完成action之后，我也会做一个diffusion(扩散模型)的预测，也就是下面会出现什么样的场景。这主要是基于性能来预测diffusion的轨迹和环境，需要4到8秒。这里是第二部分，比较像人来驾校学开车这样的环节。

第三部分是什么？就是强化，就是做强化训练，更像是在社会上开车。所以强化我们分为两部分：

1. 首先进行RLHF(人类反馈强化学习)，包含人类反馈，所以我们有大量的人类数据。如果是这样的话，人类就会接管，如果是这样的话，人类就不会接管。包含了一些人类的习惯，所以把这一块作为一种包含人类反馈的训练。包括我们在内的安全对齐都是在这个加强环节完成的。除了遵守交通法规，你还应该遵守每个人的驾驶习惯，比如中国。驾驶习惯能适应社会，首先要开得和整个社会环境中的每个人一样好，不要给别人带来麻烦。

2. 简单的RL(强化学习)，就是(将RL模型放入)我们的世界模型进行训练。这个块的目的是什么？也就是说，开得比人类好。在这一块中，我们不会给人类反馈，只会给出一个结果，那就是从A点到B点都会打开。但有三种训练要求，首先我们可以通过G值(加速度值)来判断其舒适性。接下来是对碰撞的反馈，它撞击了这一强化，但没有完成。最终是交通法规的反馈，如果违反了交通规则，就不能完成。因此是舒适、交通法规和碰撞事故，让它自己进行全面的强化训练。在完成了这三个步骤之后，VLA能够在车端运行的模型实际上就产生了。

张小珺：这些步骤中哪一个是最难的呢？

李想：我无法预测，因为我们面前没有人走过这条路。DeepSeek也没有走过这条路，然后OpenAI也没有走过这条路，谷歌Waymo也没有走过这条路。事实上，我们走的是无人区。

张小珺：那你们为什么要下注这条路？为什麽你认为每个人都可以？

李想：VLA(视觉语言行动模式)应该是交通领域最早实现的。

张小珺：因为规则清晰？

李想：第一，规则很明确，包括你说加强很容易。按照每一个方面，在交通世界里，一辆车会去哪里？其实是有的，虽然很复杂，但是肯定吧？汽车不能开到水里，汽车不能开到空中，汽车只能开到有路的地方，所以很复杂，但是很确定。

其次，实际上汽车控制，实际上汽车是3。 DoF(自由度)，汽车有三个自由度，上下是一个自由度，前后是一个自由度，在一定程度上有轻微的旋转。即使辅助驾驶有一定的意义，也要控制两个以上，三个自由度才能撑死。如果不能实现这一点，机器人上来就有40多个自由度，挑战就更大了。因此，在这个时候，我们非常容易模仿和学习。

第三，可以做特别好的强化。当人们对使用不满意时，他们会干涉。其实这是一个非常明确的指标，告诉你不应该这样做，告诉你该怎么做。

司机Agent涉及action进入物理世界，如何解决安全问题？

李想：事实上，从去年年底开始，我们建立了一个非常对齐的团队，比如模型能力强，但不遵守交通法规，经常堵塞等。，并做出了一些让人坐在车里感到不安全的行为。是否发生碰撞是模型能力的问题；但这些问题是否存在，其实这种价值观是模型应该做的对齐。

这就是我刚才说的，也就是说，在训练的第一阶段，我们应该把人类的这些规则、习俗和驾驶习惯，以及对许多项目的分析，变成整个训练反馈。其实这是我们必须做的，所以我们有一个非常大规模的团队，有100多人。

这是一种责任，因为你的能力越强，责任就越大。假如以一个人为例，模型相当于这个人的专业能力，然后很对齐，就是这个人的专业能力。

张小珺：很对齐，什么时候开始做？

李想：我们在做了1000万Clips(视频短片)之后就开始了，因为我发现如何有效利用这个时候的模型能力是非常重要的。比如它经常在拥挤的时候被堵塞，然后它的很多行为，虽然效率很高，但是人们坐在车里并不舒服。因为它可能学到了一些不该学的行为，因为它不同于人类的一些处理方法。

张小珺：你们这实际上是在造司机吗？

李想：是的，是的。我觉得很重要的一点是，只有把它变成一个真正的司机，它才是生产力工具，而不仅仅是辅助工具。L2今天、L2 实际上是一种辅助工具，辅助工具也需要大量的人参与。

若要成为生产设备，我个人认为Agent不会出现一般的Agent，而是在各个专业领域进行专业的Agent。正如刚才所说，如果你想开一辆好车，它所有的vision语料，language语料，其实和action是不一样的。

张小珺：什么是好司机大模型的北极星指标(终极指标)？

李想：将驾驶员大模型与Agent放在一起，这是一款真正的用户可以使用的产品。就像人们的分析一样，就我来判断一个司机，首先是他的驾驶水平好不好，其实是他的模型能力强不强？其次，他是否专业，很重要的一点是，我们的工作非常对齐，包括训练，是否做得足够好？第三，是否合适，他和我之间的信任关系，当我说最后一句话时，他会知道下半句，甚至我不会说很多事情。他已经可以独自完成我的记忆了。

在此之后，我认为所有的AI，或者Agent的分析都应该是这样的，专业技能，专业能力，建立信任的能力。

张小珺：你认为这个Agent应该如何定价？

李想：雇佣人类的费用是几分之一，对于几分之一，最终还是要看算出所有的费用。

张小珺：端到端才出来一年，大家就要换架构了？是不是太快了？去年端到端就被放弃了？

李想：没有放弃，端到端是VLA(视觉语言行动模型)的基础。如果把端到端想象成一个智能执行环节，那么它实际上就是VLA的A(action行动)。只是我想要更多的语言部分和更强的3D。 vision和高清2D 部分vision。

「没有葵花宝典，我也不是吃第十个包子的人。」

张小珺：有没有可能一步直接通过VLA？例如去年没有推端到端？ VLM直接推VLA？

李想：这是不可能的，至少在我们自己的经历中是不可能的。没有办法直接吃第10个包子，虽然也许大家都认为第10个包子吃饱了，但是前面的每个包子实际上都跳不过去。假如你不想在前面积累任何包子，只想吃第10个包子，很多时候很像练葵花宝典。

今天，包括DeepSeek在内的出现并不是由葵花宝典培养出来的。在过去，它很早就建立了这个集群的能力来提高这些链接和基础设施是非常重要的，这就是为什么它具有低成本和高效率。当今社会整个知识文明的发展越来越好，并非胆大于一切，我看不到任何捷径。包括今天很多企业做端到端都很难，因为在规则算法的时候没有做好。

张小珺：每个人都认为李想是吃第十个包子的人，因为做辅助驾驶的时间比别人晚。

李想：但是我们自己研究的时间并不短。自2021年Journey3芯片上地平线之旅以来，我们一直在做自己的研究，然后我们的研究也非常扎实。

我们是一家以用户为导向的企业，我们认为技术是一种能力，所以我们谈论的更多的是用户价值。今天，我们谈论冰箱、彩电和大沙发，对吗？但是智能背后的基础今天还是很强的，感觉完全不一样。

张小珺：背后的基础是什么？

李想：这就是大型软件的能力。例如，为什么今天每个人都很难做端到端和VLM？这是因为这个Orin芯片不支持直接运行语言模型。包括为什么今天可以实现双Orin-X和Thor-U都可以运行VLA司机大模型，这对许多团队来说可能是一个很大的挑战，为什么呢？

因为我们有很强的能力，所以我们有编译团队，芯片能力，板材设计能力，操作系统能力。所以我们可以把两个 Orin-X带宽足够大，同样可以运行同样规模的VLA模型。我们在这方面的技术非常优秀，因为我自己还是觉得，规模小的时候可能无所谓，规模大的时候基本功和能力永远无法逾越。

张小珺：VLA是终极结构吗，处理自动驾驶？还有下一代吗？

李想：我认为VLA(驾驶员大模型)可以解决全自动驾驶问题，但是VLA是最高效的方法吗？是否有更高效的结构？我问了一个问号，我觉得还是有很大概率的。因为VLA仍然是基于Transformer，那么Transformer是最高效的结构吗？事实上，这一点后面并不清楚。

对于你来说，张小珺：这是现阶段效率最高的结构？

李想：我认为这是最有能力的结构。今天辅助驾驶的这些规则算法和端到端与人类的差距还是太大了。VLA是最接近人类的方式，甚至有机会在驾驶方面超越人类。那是最有效的方法吗？其实是个问号。

张小珺：特斯拉FSD真正进入中国，对你有什么影响吗？

李想：从实际测量来看，他们在使用12.5前的模型时，与特斯拉的真实能力还有很大的差距。13.0后特斯拉的能力还是很强的。而且这个半规则算法的能力应该在12.5之前就有了，所以我说不是特斯拉真实能力的体现，但是我们可以看到特斯拉的基本功非常扎实。

张小珺：大家还在学特斯拉吗？

李想：美国很多顶级企业，比如苹果和特斯拉，基本功特别扎实，这是我们真正需要学习的。尤其是在今天的内卷环境下，包括外部不确定的环境，这是每个企业脚踏实地练习基本功的最佳时机。而在人工智能时代，基本功更是不可能，不可跳跃。

张小珺：为什么要学苹果？而且还不是AI公司啊。

李想：最重要的是学习能力。当我们年轻的时候，我们不理解苹果。当你实现了1000亿元的收入，当你再次看到这个1000亿元的收入企业的能力时，你开始模糊地理解它。因为规模是一个可以确定的变化，也会带来用户数量和用户需求的变化，技术和产品的变化也会带来组织和能力的变化。

张小珺：你试驾VLA有什么经验？ moment(惊喜时刻)？

李想：我觉得很难有什么aha？ moment(惊喜时刻)，因为你已经明白了它的原理，实际上它变得与人非常相似。

张小珺：更像人类。

李想：真的很像人。变得更像人并不奇怪，是吗？相反，你对一只动物突然知道的一些事情感到非常惊讶。但是如果一个人把东西做好了，你觉得很正常。

张小珺：以前你对内说理想的辅助驾驶原创性超过了增程，是不是太自信了？

李想：我觉得我们在这方面的研究工作真的做得很深。为了做好辅助驾驶工作，我们做了大量的学术研究、操作系统和完整的培训系统，甚至直接去芯片底层软件进行更改。在这方面，我们做了更多的功课和工作量。然后还有一个评价角度，就是我们在历史上从来没有遇到过，每个辅助驾驶团队的核心人员在2024年和2025年初基本上都会接到超过20个猎头电话。

「创业真的不容易，但没必要苦哈哈。」

张小珺：七月理想将迎来十周年，回顾十年你最深刻的情景画面是什么？

李想：第一张最重要的照片，是2018年理想ONE首次发布，直到2019年4月，上海车展首次正式展示，包括价格。这是一个非常重要的时刻。我们真的可以做一辆车，这辆车特别受用户欢迎。在上海车展的展厅里，我们是客流量最大的展台。因为我们什么都没做。

另一个是2022年发布理想L9，我觉得绝对是世界上最好的产品。今天，2025年，至少有5家企业因为当时L9的成功，正在打造与L9相同的产品。

张小珺：当幸福出现在你的脑海里时，你会回忆起痛苦的时刻吗？

李想：太多了。理想L9的幸福刚刚出现。全网黑公关都说理想车倒闭了。那个季度，我们损失了近20亿元，从来没有损失过那么多。突然从巅峰跌到低谷，好处就是我说的。当我们意识到许多能力不足时，我们弥补了许多能力。但正是因为这件事，我们的调整带来了2023年近三倍的增长，我们直接实现了1200亿元的收入。

不管怎样，我创业这么多年了，当问题来临时，又是一次更大的机会。因此，我实际上并没有那么纠结于这方面。对于不正常的事情，我的耐受能力很差，但是在处理了一些不好的事情之后，我的整个记忆力也很差，会把它忘掉，但是你让我回头看还是可以回头看的。

张小珺：刻意删除的记忆片段会是什么？

李想：为了让自己有更好的正能量，我还是尽量只保留那些有意义、美好的片段。即使是不好的东西，比如刚才提到的我们被黑被打，我也会转化为“看，正是因为这件事，我们才增加了三倍，我们获得了其他新力量所没有的能力，我们面临着其他新力量所没有的考验”的表达方式，这是一种心态。

创业的确不容易，但没有必要苦哈哈。苦与甜是一枚硬币的正反面，取决于选择哪一面。

张小珺:余凯博士(地平线创始人兼首席执行官)回忆说，第一次见面就去爬山，穿着军大衣。我很好奇余凯博士看到的军大衣包裹着什么样的灵魂。它和今天发生了什么变化？

李想：没有什么变化。

我甚至认为我今天90%的状态和思维模式和我上高中的时候差不多。解决问题，处理别人不想解决的问题，解决消费者遇到的最大问题，找更多的人学习。当时我是自己的站长，但是我有合作伙伴，也有少数有小团队的站长。当你不能依靠自己的能力时，你必须依靠别人，然后继续提高你的能力。到目前为止我还没有改变，只是解决的问题越来越多，服务的用户群越来越多，公司的规模越来越大，组织越来越多。

张小珺：在过去的十年里，如果所有的记忆都能改变记忆，改变程序，你想改变什么？

李想：我觉得没什么好改变的。如果你能赶上这样一个时代，几次创业就能一路走下去。在最困难的时候，有人会帮助你。当你遇到问题时，你总能很快从坑里爬出来。一群人努力变得更好是幸运的。无论是运势还是可以创造的价值，没有什么可以后悔的，挺好的。

张小珺：你刚才说的一句话就是能量，怎样才能让自己成为一个更有能量、更强大的人，或能够吸引更多能量的人？

李想：关注人，尤其是那些离你近的人，关注亲密的人。

当你关注一个人的时候，首先你要关注自己，作为我自己，我会怎样看待自己？首先，我会接受我所有的优点。这么多年来，我身上的许多特点，从DNA带来的，其实它就是我的优点，我该如何发扬自己的优点？二是要能够接受自己的缺点。一般来说，缺点就是优点的另一面。举例来说，这个人非常善于做决定，他可能无法实际做非常细致的事情，因为这两件事是矛盾的。每一个人都不一样，一般情况下，如果我们想改变，就会变得更糟，更糟。因此，我说要接受自己的缺点。三是用成长代替变化。更重要的是我是否长大了。当我们在汽车之家工作时，我只是说我们应该做好生意。资本根本不重要。最后，我们实际上陷入了资本。

当你是一辆理想的汽车时，你非常注重资本。请最好的FA(财务顾问)，最好的律师事务所，股权结构的设计和投票权。今天，我们可以看到，在所有的新势力公司中，理想汽车的股权结构、治理结构和资本现金管理都是最好的。我没有改变我的生意，但我实际上增强了我的能力，所以这是一种增长。我们必须面对各方面的能力成长，才能给自己带来能量。你的成长有自己的能量，然后你就不会和自己纠结了。当你有这个能力的时候，我们对待别人其实是一样的。

首先，我会看到别人的优点，这很重要。这一优势怎样让他发挥出来？其次，当你看到别人的缺点时，这根本不是问题。自创业以来，我就有合作伙伴。樊铮是我的补充，是我没有的，秦致是我没有的，李铁，马东辉，谢炎，邹良军是我没有的。看着大家这些缺点，反而是我的价值，我有价值可以帮助他，他有价值可以帮助我。第三，看别人的成长，你可以看到孩子的成长，你可以看到爱人的成长，你可以看到身边每一个同事的成长。其实这是有能量的。

张小珺：成长带来能量。

李想：是的，因为你变得更好，你就有能量。你关注的是人的成长，而不是那些东西。所以，第一，你可以自己产生能量，第二，你可以给别人带来能量，第三，你可以从别人那里获得能量。因为别人给你能量，别人不会失去能量，这是一种辐射。所以这是我随着自己的成长开始有效理解的一些东西。

另一方面，亲密关系其实很重要。我认为亲密关系中最重要的一点是关注人，我需要我的爱人，我需要我的孩子，我需要李铁和马东辉，我需要刘杰，解卫国，范皓宇，甚至超越他们。首先，我需要他们，也就是他们需要我。这个时候，这些人的联系就不一样了。当我们在一起的时候，我们可以形成一个强大的脑力和强大的心力，形成一个特别好的能量，这一点尤为重要，而不是说我不需要他们。

"我们今天很卷，这正是人工智能的真正含义。"

张小珺：你最近看到的一个人是谁？

李想：在我家很有意思。过去，我和妻子之间的相互支持仍然有限。从去年年底春节开始，最大的变化之一就是我的大女儿和她构成了我们的第三个支持。她14岁了，她对事物的认知发生了很大的变化。她自己的三观开始有效、特别健全地形成，超出了我们的预期。

她有能力和我们很好地沟通。她对自己的人生规划、爱好、人和事的理解特别有趣。我们家实现了三个人的支持，大大提升了家里的能量。每次和老婆聊天，聊到大女儿都很开心。没想到她14岁就能和我们形成三个人的支持。

张小珺：构成最小人数。

李想：是的，我们可以和她讨论很多问题。我们可以讨论事情，讨论人，讨论不同的意见，讨论她的计划，讨论如何出去玩，讨论家里要解决什么问题。我觉得这个特别好。

张小珺：除了家庭观，你还有更多的宇宙观、世界观吗？

李想：我们从出生开始，从大学毕业到工作，有多少事情我们没有做我们想做的事情？我们有多少事情我们想接触？我每天都忙于工作和做事。但是什么是智慧呢？智慧是我们与一切的接触。

如果你没有去过森林，没有在森林里认真玩，没有住过几天，那么你可能会认为木头是用筷子做的，纸做的，桌子做的，不代表它是一种生活。这和我们的生活不一样，对吧？如果你和孩子没有长期的生活经验，没有和他们一起玩，你可能不知道什么是亲密关系，所以你不能真正理解孩子。那么智慧是什么？我认为智慧就是我们与万物的关系。

但如何提高我与万物的关系呢？第一，要有足够的时间去接触万物。因此，我正在谈论一个非常重要的问题，今天我们很卷，但这正是真正的人工智能意义所在。

在AI面前，张小珺：什么是值得保留的人性？

李想：不管是好是坏，我认为所有的人性都应该得到保留。

张小珺：为什么要保存坏的东西？

李想：如果没有坏的，就没有好的。如果你只想要好的东西，放弃所有坏的东西，那就不是真的。你可以把好的东西和坏的东西当成一种特质。我认为这是一个充满活力的世界，一个活生生的人。

本文来自微信微信官方账号“三言Pro”，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com