Llama 四是测试集训练?内部人员,官方结局澄清,LeCun分享
每个人都翘首以盼 Llama 为什么使用起来如此拉跨?
Llama 4 如此大的节奏,Meta 终于绷不住了。
星期二凌晨,Meta Gen AI 团队负责人发表了澄清说明(针对外界质疑)「训练测试集」等待问题),大佬 Yann LeCun 还进行了分享。

很高兴能让大家用上 Llama 4.我们听说人们使用这些模型取得了许多优异的效果。即便如此,我们还是听到了一些关于不同服务质量参差不齐的报告。因为我们在模型准备好之后就推出了,所以我们预计需要几天时间才能完成所有的公开部署。我们将继续努力修复错误,吸引我们的合作伙伴。
我也听说有人声称 Llama 4 在测试集中练习根本不是事实,我们永远不会这样做。我们愿意理解,人们看到的不稳定是因为他们需要稳定的部署。我相信 Llama 4 模型是一个很大的进步,期待着与社区的持续合作来释放它们的价值。
当前 Llama 4 是否因为性能不佳而被布署策略拖累?
大模型标准平台权威 LMArena 还站出来发布了一些 Llama 4 对话结果,希望能部分回答大家的疑问。

链接:https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles
可以看出,其中许多同样问题的答案,无论与哪个大模型相比,Llama 4 所有的效果都更好。
但是这个模型到底是真的好吗? Meta 为拯救口碑而进行的一系列公共关系活动?咱们应该一起梳理一下这个事件的发展脉络。
Llama 4:买家秀 vs. 卖家秀
Llama 4 是 Meta 在 4 月 6 日常发布模型,分为 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth 这些版本。Meta 这位官员声称,新模型可以实现无与伦比的高智商和质量。

模型试炼场(Arena),Llama 4 Maverick 总排名第二,成为第四个突破 1400 分大模型。在这些模型中,开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名第一;大大超越了你自己。 Llama 3 405B,评分从 1268 提升到了 1417;风格控制排名第五。


这样的成就让开源社区以为又迎来了一位新王,于是纷纷下载尝试。但是没想到的是,这个模型并没有想象中那么好用。例如网友 @deedydas 发帖称,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 在基准测试中表现不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基准化检测专注于编程任务,如代码生成和代码补充。
另外还有网友指出,Llama 4 的 OCR、前端开发、抽象推理、创意写作等问题的表达能力也令人失望。(参考《Meta Llama 4 被疑考试「作弊」:在试炼场刷高分,但在实战中频繁翻车)
因此便有人质疑,模型能力如此拉跨,发布时晒出的那些分数是怎么来的?
内部人员爆料,Meta 工程原贴单挑
关于这个模型表现反差的猜测,「将测试集混入训练数据中。」这是最受关注的方向之一。
在留学论坛「一亩三分地」事实上,一位专业人士发帖称, Llama 4 模型一直没有达到预期,「企业领导层建议每个领导层 benchmark 测试集混合在一起 post-training 过程中」,ta 因为不能接受这样的行为而离职,并指出「Meta 的 VP of AI 又因为这个原因辞职了。」(指上周宣布离职的人员。 Meta AI 研究副总裁 Joelle Pineau)。

由于帖子没有实名认证信息,我们无法确认帖子的稳定性,相关信息也缺乏官方确认和实际证据。
然而,在这个帖子的评论区,有几个 Meta 工作人员反驳房东的说法,称「没有这样的情况」,「为了刷点而 overfit 我们从未做过测试集。」。


其中一个还贴出了自己的真名。 ——「Licheng Yu」。领英数据显示,Licheng Yu 是 Facebook AI 研究科学家主管,已在 Meta 全职工作五年多,其工作内容包括支持。 Llama 4 的后训练 RL。
如前文所诉,Meta Gen AI 该团队负责人还发表了反驳使用测试数据训练模型的声明。
然而,一些测试者发现了一些有趣的现象。比如普林斯顿大学博士生黄凯旋指出,Llama 4 Scout 在 MATH-Perturb 上的评分「独树一帜」,Original 和 MATH-P-Simple 数据上的表现差距很大(两个数据本身非常相似,后者只是在前者的基础上进行了轻微的干扰),这是非常令人惊讶的。

这个问题没有做好数据增强吗?或许还可以认为他们的模型已经进行了标准检测。「过多」提升?
虽然数学方面,这个问题还没有答案。然而,就对话而言,Meta 的确指出,他们已经改进了对话。公告中提到,在大型竞技场上,他们提到 Maverick 是「实验聊天版本」,同时,官方 Llama 站点上的图表也透露,这个测试已经使用了。「对对话进行优化 Llama 4 Maverick」。

针对当前版本问题,大模型试炼场官方账号也给出了回应,称 Meta 这是对平台系统的误解,应该更清楚地说明它们的模型是定制模型。另外,他们还会 Meta 在 HuggingFace 上面发布的版本被添加到试炼场进行重新测试,结果需要公布。
大型试验场公布战斗数据
最后,不管是训练计划还是 Deadline 的是与非,Llama 4 是否经得起考验,最终还是要看模型本身的实力。现在在模型竞技场上,Llama 4 展示了一系列的问题。 good case。这些策略中不仅有生成策略:

还可以生成网页代码:

看上去,Llama 4 还有更多类型的语言支持。

我们可以在推特的评论区看到,人们对这个系列的展示仍然褒贬不一。
尽管 LM Arena 表示将来会把握 HuggingFace 上的 Llama 4 引入版本进行对比,但是已经有人说,现在我很难相信大型试炼场。
无论如何,在大家的大规模部署和调整之后,我们很快就会明白 Llama 4 真实情况。
本文来自微信微信官方账号“机器之心”,编辑:张倩、泽南、36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




