Scaling Law未死,只是迭代出新形态

01-06 06:42
这仍是一场残酷的资源博弈。

Scaling Law遭遇瓶颈的说法,在AI圈已流传一年有余。


从Gary Marcus对收益递减的批判,到坊间关于OpenAI下一代模型“Orion”进展不顺的传闻,再到GPT-5发布时不少人觉得“不够惊艳”。进步确实存在,却缺乏令人眼前一亮的飞跃。就连Ilya也表示,行业正从扩展时代回归研究时代。那种“大力出奇迹”的模式,似乎真的走到了尽头。


然而Gemini 3的出现打破了这一局面。Gemini 3不仅性能提升,更跨越了过去两年Google被诟病的所有短板,首次在能力、推理、速度、成本、生态等全维度上,真正追平并整体超越OpenAI,丝毫不见瓶颈的迹象。


关键在于,Gemini 3并非依赖全新架构实现突破。Google称,其进步源于预训练与后训练阶段的配方升级。具体升级细节外界虽只能猜测——或许是Google积累25年的独家数据终于派上用场,或许是找到了处理数据的新技术——但Google公开表示“预训练仍有改进空间”这一点,本身就是明确信号:Scaling的两大主线,预训练与后训练,均未走到终点。



大模型训练已演变为“重资产游戏”


Gemini联合负责人Oriol Vinyals直言,Gemini 2.5到3.0的性能跃迁是团队见过最大的一次,“看不到任何瓶颈”。


与此同时,马斯克的xAI宣布其超算集群Colossus已扩展至20万块GPU,目标直指100万块。OpenAI、Anthropic、微软也在砸下数千亿美元扩建数据中心。


若Scaling Law真的失效,这些企业究竟在赌什么?


瓶颈并不存在


先看最直接的证据。


Gemini 3证明,算法改进结合更优算力,预训练Scaling依然奏效。前DeepMind研究科学家Oriol Vinyals将Gemini 3的提升归功于预训练与后训练的双重优化,并非采用全新方法论,而是把现有方法打磨得更完善。换句话说,不是Scaling本身不行,而是此前的方法尚有提升空间。


黄仁勋提出了更系统的框架:当前有三条Scaling曲线并行,即预训练Scaling、后训练Scaling以及推理时Scaling(test-time compute)。传统预训练Scaling是通过更多数据、算力训练更大模型;后训练Scaling则借助RLHF、DPO等技术在训练后持续优化;推理时Scaling让模型在回答问题前“思考”更久,比如OpenAI的o1系列。


Sam Altman在2025年初的博客中说得更直白:模型的智能水平大致等同于训练与运行它的资源的对数。这看似是坏消息,但反过来理解,只要持续投入资源,模型就会不断进步。曲线并未弯曲,只是斜率需用对数坐标来解读。



Google DeepMind CEO Demis Hassabis态度明确,他在公开活动中表示,现有系统的扩展必须推向极限,因为它至少是最终AGI系统的关键组成部分,甚至可能就是全部。


若Scaling Law真的碰壁,很难解释为何全行业仍在以前所未有的速度投入资金。这些企业在赌什么?即便退一步说,算力可用于推理而非训练,但如此规模的投入也需要模型能力持续提升来支撑——一个能力停滞的模型,值得为其建造万亿美元级的基础设施吗?


各方争论的并非同一概念


不过仔细分析各方表态会发现,大家口中的Scaling Law或许并非同一概念。


传统Scaling Law很简单:更多数据、更大模型、更多算力,对应更强性能。这是2020年OpenAI那篇著名论文确立的范式,也是过去几年大模型竞赛的底层逻辑。若指的是这条曲线,其增速确实在放缓。数据接近耗尽,单纯堆砌参数的边际收益下降,这是不争的事实。


但如今行业讨论的Scaling,早已不局限于这一维度。


黄仁勋提出的三阶段框架便是例证。预训练是第一阶段,如同让模型上大学,获取广泛基础知识;后训练是第二阶段,类似读研,针对特定领域深造;测试时计算是第三阶段,好比让模型在回答问题前先思考,而非脱口而出。o1、DeepSeek-R1等推理模型的出现,本质上就是在第三阶段发力。


还有一个有趣的视角来自IBM播客《Mixture of Experts》。几位嘉宾讨论Gemini 3时提出:是否应将其称为“Scaling Experimentation Law”而非“Scaling Law”?他们认为,算力增加的真正作用并非直接转化为智能,而是让研究人员更快地开展实验、试错与迭代。更多算力意味着更快的实验速度、更优的算法,最终带来更强的模型——这才是Scaling的真正内涵。因此,即便继续扩展的收益下降,头部企业也因博弈压力不得不跟进。


从这个角度看,Ilya Sutskever所说的回归研究时代,与其他人认为的Scaling Law未死,其实并不矛盾。Ilya想表达的是,那种简单粗暴的模式已过时,不能再指望仅靠堆砌资源创造奇迹。但他从未否认算力的重要性,而是强调“带着大型计算机回到研究时代”。算力是前提,却不再是唯一变量。


当然,Ilya的表态也不能完全当作纯粹的技术判断。他目前在做Safe Superintelligence(SSI),走的是轻商业化、重基础研究的路线。称扩展时代结束、研究突破更重要,既是技术判断,也是竞争策略。他需要让投资人相信,存在另一条通往超级智能的路径,且这条路径或许不需要万亿美元的基础设施。


另一类是“世界模型派”,Yann LeCun和李飞飞都认为,依靠当前LLM路线,无论如何扩展都难以实现真正的AGI。Yann LeCun创办了专注世界模型的公司AMI,他认为LLM虽有用,却只是“高级自动补全”,真正通用的智能需要“世界模型+自监督学习+规划+持久记忆+具身交互”的新架构。


李飞飞创立的World Labs押注于世界模型与空间智能,主攻能重建和生成3D世界的基础模型,而非再做一套更大的聊天LLM。从这个意义上说,它们代表了有别于“单纯做大语言模型”的扩展路线——世界模型意味着学习环境的动态与结构,而非仅学习token。


因此这场争论,与其说是技术分歧,不如说是各方基于自身立场讲述对自己有利的故事。


DeepSeek的关键观点


在这场争论中,中国AI公司是特殊的存在,而DeepSeek可能是最具代表性的案例。


过去一年,DeepSeek凭借极高的算力利用效率,以远低于硅谷同行的成本打造出有竞争力的模型。这一度被解读为Scaling Law的反例——看,不用砸那么多钱也能做出好模型。


但这或许是一种误读。


DeepSeek真正证明的是,架构优化与工程能力可让企业在相同算力预算下获得更好结果。用他们自己的话说,是将Scaling曲线向更省算力的方向平移。但曲线本身依然存在,若想提升性能,仍需投入更多资源。


这一点在DeepSeek-V3.2的技术报告中表述得很清楚。结论部分直接承认,模型在世界知识广度上的不足,根本原因是总训练算力少于前沿闭源模型。要弥补这一短板,唯一办法就是扩大预训练算力。



通俗来讲:我们要采购更多算力卡了。这一趋势可能会在下一代模型中得到验证。


对中国AI公司而言,这是现实处境。算法优化与工程效率是现阶段的护城河,却非永久优势。长期来看,若Scaling Law持续有效,算力便是绕不开的关卡。在芯片受限的情况下,这意味着要么找到其他路径,要么在有限资源中把效率做到极致。



残酷的现实是:只要我的GPU足够多、算力足够大,就能碾压对手。


Scaling Law未死,只是迭代出新形态


回到最初的问题:Scaling Law到底死了吗?


从现有证据看,答案是否定的。Gemini 3的表现、各家企业的持续投入、技术演进的方向,都指向同一结论:Scaling依然有效,只是形态发生了变化。


过去那种“更大、更多、更强”的简单模式,确实遇到了瓶颈。但Scaling的内涵正在演变,预训练、后训练、测试时计算三个阶段各有增长曲线。算力的价值也从直接转化为智能,转变为加速实验与迭代的基础设施。


对头部厂商而言,Scaling不仅是技术问题,更是资产负债表问题。已宣布和在建的数据中心项目,未来会持续带来压力,要求模型能力不断提升以消化这些投入。


这并不意味着前景一片乐观,模型虽在变强,但变强的速度能否支撑当前的估值与投资规模,是另一个需要探讨的问题。


华尔街有句名言:“趋势是你的朋友,直到它不是。”Scaling Law亦是如此,它会一直有效,直到失效的那一天——但显然,那一天尚未到来。


本文来自微信公众号“硅星人Pro”,作者:周一笑,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com