不改动模型,ICLR投稿新范式OTV提升推理性能
近年来,大语言模型在各类任务中表现出色,但幻觉、逻辑错误、推理漏洞等问题频繁出现。这使得研究者不断探索提升模型输出可靠性的新途径。当前的主流范式各有优点,但也存在局限性。
是否能在不改变原始模型结构和参数的情况下,对推理过程进行“实时自主监控”呢?
ICLR 2026的一篇投稿论文提出了全新思路——单 token 验证(One-Token Verification,OTV),这是一种测试时扩展的新机制,能让模型“边推理,边判断自己的推理是否正确”。

目前主流范式的优缺点如下:
LoRA 微调:作为当下主流的参数高效微调手段,它无需全参数训练,便于部署,但依赖详细的监督数据,还会引发“遗忘效应”。
RLVR(可验证奖励强化学习):仅需结果的程序可验证性就能驱动训练,节省标注成本,但整体流程复杂、计算代价高,难以广泛应用。
后置验证器:通过对模型已生成的结果进行质量筛选,可增强输出可信度,但往往滞后,难以及时纠正模型的思路,也无法了解模型的内部推理过程。
背景介绍:多线程推理的并行思考
面对复杂推理任务时,单一路径生成很难稳定得出正确答案。为此,近年来研究者提出了并行思考(Parallel Thinking)的推理框架,即让语言模型同时生成多条推理路径,再通过一定机制进行甄别筛选。
OTV 基于并行思考思路构建,但它并非提出多路径生成,而是关注如何以更低成本、更高效率从多条路径中筛选出正确推理,从而引入“单 token 验证”这一新范式。

△类似于人类能对解题过程进行判断,OTV 的动机是利用模型的内在推理动态进行分析。OTV 机制核心:内部验证器分析推理过程
为判断一条推理路径是否可靠,OTV 借助一个由 LoRA 实现的轻量角色向量作为内部验证器,与原模型并行运行。它不干扰模型生成内容,而是在“旁观”中做出判断。
这个内部验证器的“洞察力”源于 Transformer 架构的核心组件——键值缓存(KV Cache)。在自回归生成过程中,模型的每一层、每一个 token 都会生成对应的 Key 和 Value 向量,这些向量会逐步累积并保存在 KV 缓存中。它不仅是模型运行的“中间状态”,更是完整的推理轨迹记录,跨越所有层和整段历史输入,是捕捉模型内部动态最丰富的信息源。
OTV 利用了键值缓存。在验证阶段,它向输入中插入一个特殊 token ——被作者称为“ ToT ”(Token of Truth)。这个 token 的作用不同于普通生成 token:
它的 Query 向量会与此前整个序列的 KV 缓存进行一次特殊的注意力交互;
这意味着它可以“回顾”整条推理路径中每一步的注意力分布与上下文关联;
最终它输出一个隐藏状态,传递给一个轻量级的回归头;
回归头再给出一个 0~1 区间内的评分,作为当前推理路径的正确性估计。
整个过程非常高效,因为验证一次仅相当于模型多生成一个 token 的计算量。
OTV 如何训练:轻量结构、简明目标、并行高效
OTV 的内部验证器虽小,但训练逻辑经过精心设计:
结构上,OTV 在插入 LoRA 角色的基础上,增加一个轻量回归头,直接输出 0~1 之间的连续值,表示当前推理路径的正确性评分。
训练目标上,OTV 以最终答案是否正确为信号,为每个生成 token 分配启发式伪标签。例如,正确路径的得分从 0.5 线性递增至 1,错误路径则递减至 0,并用均方误差损失作为优化目标。
并行效率上,OTV 支持在训练阶段同时计算所有位置的评分预测,整体训练流程高度并行,计算成本与传统 LoRA 微调相当。

△OTV 的算法框架和四个部分示意图。OTV 的实验验证
研究团队在多个规模的开源模型(如 Qwen3-4B、Qwen3-8B、DAPO-Qwen-32B)上对 OTV 进行了系统评估,使用开源 DAPO 数据集对验证器进行校准,测试任务基于高难度数学推理数据集 AIME。结果显示,OTV 不仅准确率全面领先,还更倾向于选择更短、更准确的推理路径。
对比的基线方法包括:
基于模型 token 概率排序的无训练方案(DeepConf);
由模型自身生成验证文本的生成式验证器(GenRM);
以及一系列外部奖励模型,如 AceMath-RM、VersaPRM、Math-Shepherd 等。
实验表明,OTV 作为“模型原生”的验证器,能直接读取模型内部推理状态与输出质量之间的深层关联,其判断能力明显优于依赖输出文本的通用方法。
在标准的“加权多数投票”设置中,所有候选路径需完整生成并逐一打分,最终选择得分最高者。OTV 在不同模型规模下都稳定超越所有基线。而且,即便在已通过 DAPO 数据集强化学习的 DAPO-Qwen-32B 上,OTV 仍带来了显著的额外提升。

△不同方法在多个原模型下的加权多数投票准确率对比。
OTV 还赋予了模型动态控制计算开销的能力。依赖 OTV 实时输出的置信度分数,模型可以在推理过程中实时淘汰低质量路径,节省不必要的计算。研究者提出多种高效 Best-of-N 变体,例如“ HALF 300 ”策略,即每生成 300 个 token,就淘汰当前置信度最低的 50% 路径,最终保留得分最高者。结果显示,与标准的 Best-of-128 策略相比,OTV 高效策略在计算量减少近 90% 的前提下,仍能保持最优或接近最优的准确率。

△不同方法在高效推理设置下的准确率与输出长度对比。
更直观的对比来自可视化分析。研究者展示了多个问题下,OTV 与其他方法对推理路径的置信度得分评分轨迹。图中红色为最终正确路径,绿色为错误路径。

△不同方法在三个问题上多路径的得分变化轨迹。
可以清晰看到:
对于传统方法(如 DeepConf 或外部过程奖励模型),红绿轨迹往往缠绕混杂,缺乏单调性,无法稳定区分优劣;
而在 OTV 的评分下,红色轨迹稳定上升,呈现出推理逐步走向正确的趋势,而绿色轨迹则通常被压制在低置信区间内。
这一对比直观说明:OTV 捕捉到的信号更稳定、更真实,也更具有区分度,能够反映模型内部推理过程的质量变化,从而为最终决策提供可靠依据。
此外,研究者还进行了多项消融实验,进一步验证了 OTV 各组件的作用与稳定性,包括仅使用回归头、调整 LoRA 秩、采用不同启发式监督策略等。即便在更贴近实际微调场景的 Base 模型(未经过后训练)上,OTV 依然展现出稳定的性能提升,验证了其方法的通用性与鲁棒性。在附录中,作者还提供了更细粒度的推理可视化分析与文本扰动敏感性评估,为 OTV 在实际应用中的解释性与稳健性提供了进一步支持。

△在仅使用回归头和不同 LoRA 秩设置下,OTV 的训练损失与性能对比分析总结与展望
这篇论文提出的单 Token 验证(OTV)框架,通过巧妙地重用 LoRA 和探测 KV 缓存,为大语言模型的推理质量评估提供了一个极致轻量、实时、无损且模型原生的解决方案。OTV 体现了基于对 Transformer 架构深刻理解的“最小化、靶向性干预”的设计哲学。它揭示了,通往更强大、更可靠 AI 的道路有时需要深入模型内部,唤醒其“自知之明”的智慧。
展望未来,OTV 为后续研究开辟了广阔空间。一方面,可以探索验证器与原模型更深层次的融合机制,实现推理与评估的协同演化;另一方面,当前基于二元置信度(正确 / 错误)的设计可扩展为引入“不确定”状态的三元系统,使模型具备选择性预测能力,在面对模糊或低信号任务时学会“谨慎作答”和主动学习。同时,OTV 所提供的置信度信号具备安全控制的潜力:当模型在生成过程中暴露出异常推理模式或高风险倾向时,验证器可实时发出预警,主动终止不安全路径的生成。
此外,未来还可将 OTV 思路推广到不同架构的模型中,并结合对 KV 缓存结构的优化,进一步挖掘其在推理效率与表示利用方面的潜力。研究团队认为,赋予模型“自知之明”的这类探索,将成为推动下一代可信、安全、可控 AI 系统的重要基石。
论文链接:https://openreview.net/pdf?id=QewOtpenMy
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com

