新AI模型为何刚推出就优势不再？

03-06 06:33

本文源自微信公众号“Fast Company中文版”，作者C.Stokel-Walker，原标题为《为什么新AI模型刚一推出，就失去了优势？》

当下人工智能领域的竞争中，技术迭代速度已不再以年或月为单位，而是缩短至以周计算。

今年2月初，Anthropic发布的Opus 4.6曾是该公司的重要里程碑，在多个领域都达到了顶尖水准。但仅一周后，中国企业Z.ai就推出了对标Opus的GLM-5模型，且目前没有证据显示GLM-5存在复制或借鉴Opus的情况，社交媒体上不少人将其称为“平替版Opus”。

然而Z.ai的优势也未持续太久，在Anthropic被GLM-5追平后不久，GLM-5便被迅速下载、压缩，进而开发出可本地离线运行的版本。

外界对AI企业如何快速追赶甚至超越竞争对手，尤其是部分中国企业能在几天或几周内推出媲美美国顶尖模型的产品，一直存在诸多争议。谷歌长期以来都在警示“蒸馏”技术可能带来的风险。

在“蒸馏”过程中，企业会向模型输入大量提示词，生成海量回复数据集，从中提取内部推理模式与逻辑，再用这些数据训练成本更低的复刻模型。有消息称，曾有机构向谷歌Gemini模型发送超10万次提示，试图破解其强大能力的背后原理。麻省理工学院专注人工智能政策研究的博士生Shayne Longpre表示：“我确实感觉技术壁垒正在消失。”

这种变化不仅体现在发布速度上，还涉及技术进步的本质。Longpre指出，最顶尖的闭源模型与开放权重模型之间的前沿差距正急剧缩小，他引用非营利研究机构Epoch AI追踪模型发展的研究解释：“目前这一差距大约只有三到六个月。”

差距缩小的原因在于，如今大部分技术进展是在模型发布后实现的。Longpre解释，各家公司会“对这些系统进行不同的强化学习或微调，或是提升测试时推理能力，或是支持更长的上下文窗口”，这些操作都大幅缩短了适配周期，“无需从头开始预训练全新模型”。

这些迭代式改进不断放大速度优势。“他们每隔一两周就推出各种变体版本，”他说，“就像给普通软件打补丁一样。”

但作为前沿技术的开拓者，美国AI公司对这类做法的批评声越来越大。OpenAI在致美国国会议员的备忘录中指控，DeepSeek通过蒸馏美国模型的输出来训练具有竞争力的系统。

即便不存在严格意义上的“窃取”行为，开放权重生态也在以前所未有的速度模仿前沿模型的有效创新。

阿姆斯特丹自由大学研究基础模型竞争问题的法学副教授Thibault Schrepel认为，问题部分源于模型许可证对“开源”的定义。“我们常听到某个系统是否开源的说法，”他表示，“但我觉得这种二元判断非常局限。”

Schrepel补充道，仔细查看许可证实际条款很重要。“若认真研究所有模型的许可证，会发现它们对所谓‘开源’模型的使用方式施加了大量限制。”例如Meta的Llama 3许可证对超大型服务设置了触发条款限制，小型服务则不受影响。“如果部署给超过7亿用户，就必须申请许可。”Schrepel说，这种双层体系会形成灰色地带，滋生可疑行为。

麻省理工学院的Longpre表示，市场很可能会走向分化。一边是廉价、性能持续提升、可本地部署的模型，用于处理日常任务；另一边是用于高难度、高风险工作的高端前沿系统。“我认为基础水平正在整体提升，”他补充道，并预测“会出现更多价格亲民、可本地部署、体积更小的通用模型”。但他也相信，在关键且专业的工作中，用户仍会“倾向于使用OpenAI、谷歌和Anthropic的模型”。

Longpre还表示，完全阻止模型蒸馏几乎不可能。他分析，每当新模型发布，竞争对手必然会尝试提取并复制其最优秀的特性。“归根结底，我认为这是一个无法避免的问题。”

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

企业AI工具落地指南：OpenClaw应用的四大核心困惑与破解策略

超200亿！龙湖、万达、荟聚等知名商场易主保险资金成主力核心城市大额交易稳市场

北京地铁1号线支线预计2027年6月具备开通条件

头部稳固、腰部激战：2025西安人气购物中心格局新变！赛格霸榜、大悦城登顶、中贸突围背后的商业逻辑

华为筑天路、中兴造天眼：国产通信巨头MWC26竞逐低空经济新赛道