10步提升超越强化学习,只需1条未标注数据,后训练强势破局。

06-05 11:24


【简介】没有监督的熵最小化(EM)只有一个方法可以显著提高大模型在推理任务中的表现,而不需要标注数据和提高10步左右,甚至超越依赖大量数据和复杂奖励制度的强化学习。(RL)。EM提供了一种更高效、更简洁的新思路,通过优化模型的预测分布,提高其对正确答案的信心。


经过强大的通用性能,目前大模型的研究方向已转向「如何解决具体而复杂的推理任务?」,比如数学题,分析物理变化,或者构建编程逻辑。


为了达到更高的性能,除了大量的文本预训练外,通常还需要进一步的后训练。


采用强化学习的主流后训练方法(RL),特别是结合可验证奖励强化学习(RLVR)。


虽然基于RL的微调可以显著提高模型性能,但它依赖于大规模、高质量的标记数据,其训练效果也取决于开发者设计的复杂奖励函数,需要专家知识来最大化优势信号,防止模型「奖赏作弊」。


此外,许多常用的RL算法(如PPO)需要额外的奖励模型,这不仅增加了算法的复杂性,而且大大提高了多训练步骤和长采样过程的计算成本。


最近,Ubiquant研究小组提出了一项LLM后训练的突破性研究,对比了13,440组大型训练试验,确认了一件事:


采用无监督的方法「最小化单样熵」(One-shot Entropy Minimization, 简称One-shot EM),只要一个未标注的样本和10步左右的推广,就能达到RL模式的效果,甚至超越依赖数千条数据和精心设计的奖励系统。



论文链接:https://www.notion.so/One-shot-Entropy-Minimization-20266db813b8063973f850f39246


EM的核心理念是训练模型,不需要标注任何数据或外部监督,只需要依靠模型本身来预测分布熵。(entropy)进行优化。


事实上,效果是基于一个关键假设和一个简单的直觉:如果一个模型本身足够强大,那么当它预测结果时,「自信」同时,也更有可能是正确的。


具体而言,EM训练模型更注重其概率质量。最自信的导出事实上,正确答案通常比错误答案具有更低的熵值。


EM可以通过优化目标来减少模型产生序列的熵,从而使模型变得更好。「自信」,这样就可以加强他们在预训练阶段获得的能力。


在文章中,研究人员对one进行了深入分析。-shot EM的有效性,发现它与强化学习有着相似的核心特征,但是从logits偏移的角度来看,它对模型行为的引导方向是相反的。


一般试验表明,「温度」在推理阶段,EM练习和推理表现是决定EM练习和推理表现的重要因素,与强化学习相反。


在本质上,EM更像是一种「分布塑形工具」,而且非常规的学习方法。


熵最小化


具体而言,熵最小化的核心公式是:



设置?表示一种预训练自回归语言模型pθ该模型的词汇表由参数组成θ定义。


给出一个输入提醒x(例如,一个问题或一个问题描述),模型根据其当前策略自回归生成一个响应序列。 y=(y1,y2,,,,yT),其中T是生成序列的长度。核心思想是通过在每一步生成过程中最小化标记级别的熵来降低模型对自身预测的不确定性。


时间步t的条件熵定义如下:



以下公式给出了单输入X的整体EM损失:



简而言之,这种损失函数激励模型不需要依靠外部监督信号或奖励函数来提高自己的预测信心。


因为它完全依赖于模型本身,而不是外部信号,完全适应了预训练目标,可能会在有效简化推广过程的同时对模型中的一致性造成潜在的破坏。


仅仅使用一个样本就足够了!


熵最小化(EM)成功取决于成功「预测模型的不确定性」可以作为「有价值的训练信号」。


研究人员采用了一种基于此的方法。「模型表现方差」选择样本的方法,选择信息量更大的输入提醒:选择模型性能不稳定的样本进行训练,通过计算模型几次生成结果的准确性方差。




这种方差量化了模型对给出输入预测的不一致性:低方差意味着对准确性(接近完美的成功)没有高度的信心,或者对失败有高度的信心(完全错误)。


相反,表现方差大的样本可以更有效地驱动模型减少熵值,明确决策边界,这也是为什么模型推理性能可以通过使用高质量的样本来快速提升的原因。


研究人员使用的唯一样本如下:


Problem: The pressure P exerted by wind on a sail varies jointly as the area A of the sail and the cube of the wind’s velocity V. When the velocity is 8 miles per hour, the pressure on a sail of 2 square feet is 4 pounds. Find the wind velocity when the pressure on 4 square feet of sail is 32 pounds.


Solution: 12.8


以小博大,性能超越RL。


在多个数学推理任务中,研究人员测试了熵最小化(EM)数据显示,EM方法只有一个样本和10步训练,大大提高了Qwen2.5。-Math-7B的性能:



MATH500测试集:精确度由53%提高到78.8%,提高25.8%。%;


Minerva Math测试集:精确度由11%提高到35.3%,提高24.3%。%;


AMC23测试集:精确度从44.1%提高到70.3%,提高26.2%。%。


即使只使用一个样本和很少的训练步骤(只有10步),EM方法也大大缩小了Qwen2.5-Math-Prime和7B-Zero-基于RL模型的先进差距,如7B和RLVR-GRPO。


特别是在AMC23基准测试中,Qwen2.5-Math-7B达到了70.3分的竞争力,接近领先的RL模型,这些结果清楚地表明,熵最小化(EM),虽然比典型的强化学习方法更简单,数据更高效,但在数学推理任务中增强基础语言模型的性能潜力巨大。


那么,熵最小化为何如此有效呢?熵在模型练习和推理过程中起着怎样的作用?


EM vs.RL:置信度和Logits偏移


在生成每一个token时,大型语言模型首先会产生一组未归一化的分数Logits,然后通过Softmax函数转换为概率分布,从而决定下一个token的选择。



所以Logits的分布形式直观地反映了模型对其的预测。「置信度」并且喜欢不同的token。


通过对模型Logits分布的深入分析,我们发现熵最小化(EM)和强化学习(RL)对于模型内置信度的影响方向完全不同。


EM:向右移动,增强自信心。


研究发现,EM训练模型之后,Logits的分布会明显向右偏移,这意味着在生成过程中,模型会反复加强自己的预测信度。


在少数情况下,模型将更多的概率质量集中在其中。「确定」在token上,使原本高概率的区域进一步扩展到高分区间。


从直观的角度来看,这使得模型对其最有利的答案更有利「自信」。


这种向右的Logits偏移在生成和取样时是有益的,它增加了备选token的高概率,扩大了模型可以遵循的范围。「高概率路径」,然后潜在地提高模型的整体生成能力。


实验中,EM 在评估过程中,训练模型呈现出与取样温度相反的趋势:随温度升高,性能下降。


贪婪解码(即总是选择概率最高的token)可以用来解释——EM训练将概率质量高度集中在少数确定性token上,贪婪解码在这种分布下变得非常有效。


RL:向左移动,由真实信号引导。


与EM不同,RL训练模型表现出Logits分布向左偏移的趋势。


研究人员推断,在训练过程中,这是「真实」(ground-truth)信号的影响。


RL通过外部奖励函数调整模型行为,会惩罚那些预测概率高但与地面真实不一致的模型。


通过降低这些高概率但不恰当的token的权利(reranking),RL减少了其排序位置,从而导致Logits整体分布向左偏移。


经过RL训练,即使经过reranking,这些原本低概率的token通常也只占据概率分布的中心位置,需要更高的采样温度才能被选中。


所以RL训练模型呈现出与EM相反的趋势:随取样温度升高而提高性能。


虽然RL的目的是提高模型性能,但是Logits左移被认为是对大型语言模型形成过程的危害,降低了采样过程中高概率路径的数量,可能会削弱模型的综合性能。


通过对Logits分布偏差的分析,Logits偏差可以分析(Skewness)进行量化。


EM训练显著提高了Logits分布的偏差,呈现右偏;而RL训练显著降低了偏差,甚至导致左偏。


即使RL训练在EM之后进行,从EM之后,Logits分布的偏差也会明显降低,跟随RL的趋势,其差异和EM和RL完全不同的推理采样策略也会有所不同。



在评估阶段,随着取样温度的升高,EM模型在四个数学推理基准测试中的平均表现持续下降。


EM 更像是一种分布式塑造工具(distribution shaping tool),通过加强模型本身的内在一致性,可以提高置信度,进而重塑当前知识的分布。


「过度自信」陷阱和随机性


研究结果还揭示了其高效性背后隐藏的内容。「过度自信」现象。



在训练初期,EM训练的损失迅速下降,模型数学推理的性能也有所提高。然而,当训练达到10步左右时,模型性能达到顶峰。


令人惊讶的是,即使EM训练的损失继续下降,模型数学推理的性能也开始下降。


这种「过度自信」这种现象可能是由于持续的EM训练过度放大了模型,在推理过程中产生了模型本身。 token 的置信度。


持续的EM训练可能会加强模型现有的先验误差过多,导致输出结果过多集中在狭窄和过度自信上。 token 分布,进而加重算法误差,导致导出明显偏移正确路径,最终损害模型的实际推理性能。



训练过程中的温度也反映了熵最小化的不稳定性和过度自信的损害。


随着生成温度的升高,EM训练模型在四个数学推理标准中的平均性能呈上升趋势。


平均性能的最大值最初增加,然后当温度在0.5左右时开始下降。较高的温度带来更好的平均推理能力,而适度的温度(如0.5)会导致更多的性能波动,从而为更高的峰值性能创造机会。


同时,EM训练表现出显著的随机性。即使设置完全一致,由于种子不同,四个数学推理基准测试的平均分数也会相差两倍。


什么场景适合EM?


结果表明,熵最小化(EM)尤其适用于以下三种场景。


目前还没有进行大量RL调优的基本模型或者只是通过 SFT 模型


研究人员对许多不同的基本模型进行了评估。-shot EM的效果,结果表明,只有单个样本和很少的训练步骤,EM 能持续而显著地提高这些模型在数学推理基准测试中的性能。


但是,当应用于大量RL普通微调模型时(例如 SimpleRL-Zoo)时,One-shot 相反,EM可能会导致性能下降,这与RL后应用EM可能锁定狭窄、过度自信的输出方式和损害特性的发现是一致的。


场景需要快速部署,没有足够的数据或资源有限。


EM的核心优势在于其极高的效率和对数据的极低需求,研究表明,One-事实上,shotEM比较 Multi-shotEM表现出更好的性能和更强的泛化能力。


尽管Multi-shot使用了更多的样本,但是One-shot EM通过单个样本完成了更持久、更细致的优化,有效减少了样本偏差,缩小了导出方差,进一步增强了EM在数据极其稀缺的情况下的吸引力。


增强无成本能力


熵最小化(EM)EM可作为当前后训练范式的有力补充甚至起点。在RL之前使用EM可以带来有效的收益,使之成为RL的有效收益。「启用基础」。


EM可以通过其独特的Logits右偏移效应来提高模型的信心,提高模型的推理能力,并且可以促进后续RL训练的更快收敛和持久提升。


对已经深度调优的RL模型,再次使用EM可能会降低特性。


产业前景及未来研究


One-shot EM的成功不仅在于它惊人的数据和计算效率,还在于它为LLM后训练提供了一个完全不受监督的替代方案,无需人工标注数据,无需构建复杂的奖励模式,大大降低了后训练的门槛和费用。


这项研究也为未来的探索开辟了广阔的空间:


训练稳定性和鲁棒性


One-shot EM虽然效率高,但也伴随着超参数敏感性和一定的训练多变性。


研究表明,持续的EM训练可能会导致模型「过度自信」,反而损害了性能。


为了进一步稳定和提高EM的效果,未来的工作需要探索早停标准或自适应调度机制,减少训练的随机性。


泛化能力和跨领域应用


在数学推理任务方面,EM表现出色,但是能否泛化到对话、摘要、代码生成等其它领域,还需要进一步的实验验证。


与此同时,EM目前正在进行Token等级操作,未来的研究可以探索结构化熵应用于序列或语义模块,或者引入具体的先验知识和自适应熵正则化任务,以释放更多的潜力。


融合现有技术


作为一种分布式塑造工具,EM与SFT、目前RLHF等训练技术概念正交。


研究表明,EM在RL之前的应用可以带来大部分有益的分布偏差,未来的工作可以系统地研究不同EM与RL相结合的时间表、课程策略及其相互作用,探索构建更强大混合方法的概率。


在SFT或RLHF过程中,EM甚至可以作为正则策略,或者作为当前模型。「信心压缩」层。


深入研究信度校正的深入研究


结果表明,EM可能是一种轻量级的自信校正方法,通过加强高概率推理路径来提高模型的可信度。未来的研究需要开发更准确的评估协议来量化EM的校正效应,并对其背后的机制有深刻的理解。


参考资料:


https://www.notion.so/One-shot-Entropy-Minimization-202606db813b8063973f850f39246a5?source=copy_link


本文来自微信微信官方账号“新智元”,编辑:LRS,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com