三位顶级AI技术人员很少出现在同一个领域,谈论AI行业最大的。「罗生门」

05-29 10:26

文|周鑫雨


编辑|苏建勋


预训还是关键?现在AI行业,这是最大的“罗生门”事件。


2023年,模型预训练仍然是第一原则。但是,从OpenAI前首席科学家Ilya公开发言“预训练已经走到了尽头”,到DeepSeek R1爆红,又显示出预训练的风景不再。


AI产业的“共识”和“非共识”不断流动,从人人青睐,到口碑下滑,预训练状况的变化,都是一个缩影。


蚂蚁集团在2025年5月27日的“技术开放日”上,针对AI技术的共识和非共识,积累了一个交流局。


圆桌对话的参与者,是当前最热门的企业家、技术高管和学者:


曹越,Sandd视频模型公司.AI创始人,前光年外联创。2024年7月完成两轮融资后,企业估值已超过1亿美元;


林俊旸,阿里通义千问(Qwen)项目负责人。从2021年发布的M6到2025年的Qwen3,他都是公认的模型领导者;


孔令鹏,香港大学助理教授,NLP LAB联合主任。Dream带头开发的扩散推理模型 新的SOTA已经成为开源扩散语言模型。



从某种意义上说,曹越和孔令鹏在探索AI“非共识”的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流结构应用到彼此身上:


Diffusion通过多模态主流架构 Model,在语言模型中,孔令鹏参与了Dream的研究和开发。 7B,DeepSeekk,参数仅为7B,在多项任务中表现优于671B。 V3。


另一方面,曹越将语言模型的主流自我回归(Auto Regressive)线路,运用到视频模型的训练中,完成了视频长度的无限扩展。


它们的经历代表了当今AI行业最性感的一面:拥抱非共识,实现创新。


相比之下,阿里给外界的印象是拥抱共识:长期以来,千问发布了曾经的主流Dense模型。直到2025年2月,该团队才推出了第一个MoE模型。


身为负责人的林俊邈,也经常听到外界批评的声音:“千问是不是太保守了?”他在圆桌上澄清:"我们不是传统的,只是在做了很多实验之后失败了。真是一件伤心的事。"


它也是AI产业的另一面:共识,通常代表着大部分的成功经验。


在2023年,当阿里训练千问大模型时,林俊邈描述说,Transformer架构内部有很多“魔改”。但是,他们最终发现,Transformer仍然是最佳解决方案。


三个人当然感受到的一个变化是:去年仍然有很强的信念共识,今年每个人都开始寻找非共识。


在今天的行业里,林俊邈打了一个例子,每个人都在探索不同的方向,看谁能碰彩票。孔令鹏也有类似的看法,“每个人似乎都在相反的道路上,但他们并没有分歧。


一种情况是,无论是像孔令鹏一样,在语言模型的基础上做Diffusion,还是像曹越一样,在视频模型上做自回归,都是为了平衡Model。 Bias(模型误差)和Data Bias(数据误差),达到更好的效果。


而且,关于预训练,最近美国出现了新的非共识:预训练还没有结束。目前,林俊邈也站在了一个新的非共识方面。他透露:"我们还有很多数据没有放进去(千问),一次放进去。"


下面是《智能出现》对圆桌内容的整理,内容经过编辑:


千问并非传统,只是很多实验都失败了。

蚂蚁百灵模型负责人周俊(花名:西亭):使用扩散模型来做语言生成背后的思考是什么?


孔令鹏:当你不了解你的数据时,不要对数据做更多的假设,让模型接管更多的东西,那就是为什么我们在语言模型训练中使用扩散模型。


一些信息包括从左到右的Bias(误差,指输出结果和真实结果的区别),例如3 3=6,不可能先有6,然后补上之前的流程。还有一些数据,比如我开三个会,A会到B会后面,B会一定是中午,也就是说数据不可能完全从左到右。


使用Gemini 就像Diffusion这样的文本扩散模型而言,它是一种假设比从左到右学习自回归模型更少的模型,它可以双向学习,也可以处理并行的任务。


西亭:在多模态领域,请结合实践,分享主流架构面临的技术挑战。


曹越:语言和视频在某种意义上还是相当相似的,它们在时间维度上都有较强的因果先验,即时间逻辑关系。


事实上,去年年初发布的Sora并没有这样的先验,产生的5秒视频就是直接用一个模型来建模。


我们自己的感受是,视频时序的因果先验还是很强的,人们看视频的时候是有顺序的。为什么有顺序?因为视频信息的存储方式是有顺序的。


如果我们能设计出一种可以编码时间维度顺序关系的训练方法,我可能会更大程度地从视频中提取信息,从而使模型的最终天花板更高。


西亭:分享你对Transformer架构理解的变化,以及你如何看待Transformer目前面临的困难。


林俊旸:对于Transformer,我深深地感受到了Transformer,因为Transformer很快就开始做这份工作了。所以我个人比较感谢Transformer。


一路走来,我们试图改变许多事情,但最终发现Transformer确实很有用。每个人都会在2022年改变一些细节,比如对Transformer的激活函数做一些相应的改变。感觉就是谷歌还是太强了,PaLM(基于Transformer训练模型的谷歌)仍然相当不错。


特别是2023年,我们刚刚开始做千问,一开始也很挣扎。也许有些同学用过我们早期的模型,花样很多,经过半天的发现,基本的模型结构还是不能乱动。因此,我认为这仍然有一点玄学。


每个人对千问都有一种指责,就是觉得我们比较保守。事实上,我们并不传统,做了很多实验都失败了,这是一件悲伤的事。


还有一点值得注意,MOE模型。我们在2021年做MOE,当时是M6模型。当时我们发现MOE可以Scale,但是这个模型不强。


MOE还是值得去的,因为今天说白了,效果和质量,现在所有的商业公司都需要。现在我们探索的架构,还没有很好的结论,还在做实验,能看到优点和缺点。


但我认为这是一个很好的方向,因为MOE确实有可能实现无限的前后文本。但是一些常见的长序列任务,比如一些常见的程序任务,比如抽取任务,有时候还不如其他方案。


所以,我们现在也许在做Transformer的同时,也会关注MOE。


孔老师的方向,当然,Diffusion LLM(扩散语言模型)我们也在关注,这是另一条线。目前,扩散语言模型在数学、代码和推理任务方面表现良好。


这是出乎意料的,因为当我们做各种自回归实验时,相关任务相当失败。但是现在扩散模型的性能还是挺不错的。但是它的通用能力还有很大的提升空间。


感觉每个人都在不同的方向去探索,看谁能摸到彩票。


现在每次下芯片,成本都越来越高。

西亭:目前行业重点关注哪些模型优化方法?您认为效率优化空间最大的方向是什么?


林俊旸:每个人都非常关注当今DeepSeek的每一步趋势。当时看到DeepSeek能够如此大化MOE的稀疏比(激活的专家数量与总专家数量的比值),还是挺让人惊讶的。


但事实上,我们已经达到了同样的稀疏比。当时我们测试了模型的效率和质量,看看模型能否在保持效率的同时变大。结果,1:与一般试验相比,20的稀疏性更好,但是1:十是比较保守的选择。所以我们更多的是在这个范围内。


但是DeepSeek可能会做得更好,稀疏比可以达到1。:20 。


MOE值得进一步探索。专家越多,越稀疏,训练的稳定性肯定会下降。因此,我们应该根据训练的稳定性做一些相应的改进。


但是对于模型结构,今天要更安全地考虑。对于预训练来说,模型架构可能很友好,但是对于强化学习却很不友好,这将带来许多困难。因此,如今每次下芯片,成本都越来越高。


与此同时,自身模型结构也要提前考虑长序列问题。


因此我认为效果效率联合优化,一个取决于模型是否变得更大更稀疏,另一个是否能支持更长的序列;同时,在训练过程中,长序列训练不应变得更慢。


西亭:如何通过结构创新在多模态领域取得突破?


曹越:在2021年,我们还对Transformer进行了“魔改”,并做了一个叫Spring的 Transformer工作,那个时间点在计算机视觉领域还可以。


但往后想,每个人都“魔改”Transformer,许多情况下都是在改先验。改变先验的过程有一个很重要的问题,那就是:你的先验是否会影响模型效果的天花板。


一个探索层面是,如何在attention(注意)中添加合适的先验sparse(稀疏化,从而降低计算复杂性),我认为这是ROI(投入产出率)非常高的问题。


在另一个层面上,整个多模态领域往往涉及到各种不同的Token类型的组合。如果在attention中制作合适的sparse,这个过程可以显著提高跨模态融合的效率。


另外一个层次是,如何实现从Tokenize(编码)到联合建模的端到端的提升。


西亭:如何提高Transformer的可解释性,减少幻觉?


孔令鹏:首先,我想回复曹越。在每个人看起来相反的道路上,我认为这并非一种分歧。


事实上,我们所做的就是找到一个最适合数据的Bias,或者我相信我的模型可以去除所有的Bias,但是这也对我的模型提出了更高的要求。


回到模型的可解释性和幻觉,Transformer是否应该携带这个锅值得商榷。


有一件事我真的很想问。因为有句话说,加强学习的范式可能不是模型后期的“幻觉”的好消息,因为它可能学到了一些错误的推理方法。


在Qwen 3和Qwen 在2.5中,有没有看到这种现象?


林俊旸:我只能自暴自弃。我们真的无法控制“幻觉”。


所以现在要解决几个问题。一是如何降低“幻觉”,反过来通过加强学习来处理。


另一个是与“幻觉”或可解释性有关的事情。现在我们正在做一些与SAE(稀疏自编码器)相关的研究,发现一些问题可能与一些特征密切相关。因此,我们可以通过SAE找到一些特征,然后压抑它们。


即便加强学习,发现有“幻觉”的问题,这也不可怕,看下一步怎样解决。


孔令鹏:一种结构,首先要与硬件联合考虑。新的问题,新的结构,例如,有些结构不适合加强学习。


我的感觉是,不要用“GPU 自回归/Transformer 预训练/SFT(微调监管) 加强学习,这是一种固定的方法,可以考虑一切。


林俊旸:将来可能会发生变化。主要是我们没有选择,只能用GPU训练。


我问过懂硬件的朋友,Transformermer他说GPU不适合训练。,自己做一个也是不可能的。


但是我们的企业可以去做,或者中国反而有一定的机会去做软硬一体。所以我们将来可以更深入地思考问题。


创造实际上是一个搜索层面的问题。

西亭:现在,预训练的边际效应似乎已经开始下降。如何通过架构创新突破当前瓶颈?


林俊旸:首先谈到达到瓶颈这个问题,我保留了疑问。


由于去年预训练即将结束,这已经成为共识。但是今年大家都在疯狂地追求非共识。现在美国出现了一个新的非共识,叫做预训练还没有结束。


不知该开心还是不开心。做这个生意,我也知道自己差在哪里,反正还有很多要补的。


如果你认为问题还可以,那么我认为预训练有很大的成就。因为我能说的是,我们还有很多数据没有放进去,所以我们可以一次改进一次。稍微改变一下模型,放大一点,再次提高性能。


西亭:在多模态领域,下一代的结构可能有什么值得关注的地方?


曹越:我非常同意俊邈的说法。去年预训练即将结束,语言数据即将用完,图像视频数据依然大有作为,这是我自己的初步感受。


在另一个层面,我认为下一代的结构中仍然有很多常用的物品。过一段时间,你可以把它拿出来,看看它是否常见,或者它是否实际上使用了一些先验,但我们通常没有注意到它。


假设我们去看看过去十多年的发展历史,这实际上是一个算率越来越高,整个训练过程中Bias越来越少的过程。


如今我们有了新的计算率,在计算率比过去充足的情况下,一些以前不太可用的技术,可以拿出来再试一次。


另外一个容易被大家忽视的部分就是提高算率。


西亭:未来模型如何突破理解与生成,走向所谓的智能创造,甚至创造一些新的智能?


孔令鹏:事实上,现在的模型怎样才能更加智能化。


例如创作。事实上,创造仍然是一个搜索层面的问题。一句话20个单词,给你2000个单词,就是有那么多概率。最终就是在所有的概率中找到一个。


所以我有时觉得,假如把创造理解为一个搜索问题,那么它将来很可能会得到解决。


最后我想说的是,不要太担心预测未来,有时我们没有办法,或者说从来没有办法真正预测未来。


当我们到达某个阶段时,我们只能回头看看一件事是否有进步。当我们回头看时,我们发现GPT-4o相对于GPT-4是进步,4是进步,3是进步。


我见过一位励志鸡汤,与大家分享:


有一个问题:飞机飞行时,它规定的路线上有多长时间?答案是0%,因为它在不断调整,并将其调整到既定的路线上。但它从未通过既定的路线。


所以预测可能没有那么大的指导作用。不要害怕犯错。犯错后调整错误,回头看看有什么进步。这可能是一种不那么焦虑的态度。



欢迎交流!


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com