不改动模型，ICLR投稿新范式OTV提升推理性能

2025-10-24

近年来，大语言模型在各类任务中表现出色，但幻觉、逻辑错误、推理漏洞等问题频繁出现。这使得研究者不断探索提升模型输出可靠性的新途径。当前的主流范式各有优点，但也存在局限性。

是否能在不改变原始模型结构和参数的情况下，对推理过程进行“实时自主监控”呢？

ICLR 2026的一篇投稿论文提出了全新思路——单 token 验证（One-Token Verification，OTV），这是一种测试时扩展的新机制，能让模型“边推理，边判断自己的推理是否正确”。

目前主流范式的优缺点如下：

LoRA 微调：作为当下主流的参数高效微调手段，它无需全参数训练，便于部署，但依赖详细的监督数据，还会引发“遗忘效应”。

RLVR（可验证奖励强化学习）：仅需结果的程序可验证性就能驱动训练，节省标注成本，但整体流程复杂、计算代价高，难以广泛应用。

后置验证器：通过对模型已生成的结果进行质量筛选，可增强输出可信度，但往往滞后，难以及时纠正模型的思路，也无法了解模型的内部推理过程。

背景介绍：多线程推理的并行思考

面对复杂推理任务时，单一路径生成很难稳定得出正确答案。为此，近年来研究者提出了并行思考（Parallel Thinking）的推理框架，即让语言模型同时生成多条推理路径，再通过一定机制进行甄别筛选。

OTV 基于并行思考思路构建，但它并非提出多路径生成，而是关注如何以更低成本、更高效率从多条路径中筛选出正确推理，从而引入“单 token 验证”这一新范式。

△类似于人类能对解题过程进行判断，OTV 的动机是利用模型的内在推理动态进行分析。OTV 机制核心：内部验证器分析推理过程

为判断一条推理路径是否可靠，OTV 借助一个由 LoRA 实现的轻量角色向量作为内部验证器，与原模型并行运行。它不干扰模型生成内容，而是在“旁观”中做出判断。

这个内部验证器的“洞察力”源于 Transformer 架构的核心组件——键值缓存（KV Cache）。在自回归生成过程中，模型的每一层、每一个 token 都会生成对应的 Key 和 Value 向量，这些向量会逐步累积并保存在 KV 缓存中。它不仅是模型运行的“中间状态”，更是完整的推理轨迹记录，跨越所有层和整段历史输入，是捕捉模型内部动态最丰富的信息源。

OTV 利用了键值缓存。在验证阶段，它向输入中插入一个特殊 token ——被作者称为“ ToT ”（Token of Truth）。这个 token 的作用不同于普通生成 token：

它的 Query 向量会与此前整个序列的 KV 缓存进行一次特殊的注意力交互；

这意味着它可以“回顾”整条推理路径中每一步的注意力分布与上下文关联；

最终它输出一个隐藏状态，传递给一个轻量级的回归头；

回归头再给出一个 0~1 区间内的评分，作为当前推理路径的正确性估计。

整个过程非常高效，因为验证一次仅相当于模型多生成一个 token 的计算量。

OTV 如何训练：轻量结构、简明目标、并行高效

OTV 的内部验证器虽小，但训练逻辑经过精心设计：

结构上，OTV 在插入 LoRA 角色的基础上，增加一个轻量回归头，直接输出 0~1 之间的连续值，表示当前推理路径的正确性评分。

训练目标上，OTV 以最终答案是否正确为信号，为每个生成 token 分配启发式伪标签。例如，正确路径的得分从 0.5 线性递增至 1，错误路径则递减至 0，并用均方误差损失作为优化目标。

并行效率上，OTV 支持在训练阶段同时计算所有位置的评分预测，整体训练流程高度并行，计算成本与传统 LoRA 微调相当。

△OTV 的算法框架和四个部分示意图。OTV 的实验验证

研究团队在多个规模的开源模型（如 Qwen3-4B、Qwen3-8B、DAPO-Qwen-32B）上对 OTV 进行了系统评估，使用开源 DAPO 数据集对验证器进行校准，测试任务基于高难度数学推理数据集 AIME。结果显示，OTV 不仅准确率全面领先，还更倾向于选择更短、更准确的推理路径。

对比的基线方法包括：

基于模型 token 概率排序的无训练方案（DeepConf）；

由模型自身生成验证文本的生成式验证器（GenRM）；

以及一系列外部奖励模型，如 AceMath-RM、VersaPRM、Math-Shepherd 等。

实验表明，OTV 作为“模型原生”的验证器，能直接读取模型内部推理状态与输出质量之间的深层关联，其判断能力明显优于依赖输出文本的通用方法。

在标准的“加权多数投票”设置中，所有候选路径需完整生成并逐一打分，最终选择得分最高者。OTV 在不同模型规模下都稳定超越所有基线。而且，即便在已通过 DAPO 数据集强化学习的 DAPO-Qwen-32B 上，OTV 仍带来了显著的额外提升。

△不同方法在多个原模型下的加权多数投票准确率对比。

OTV 还赋予了模型动态控制计算开销的能力。依赖 OTV 实时输出的置信度分数，模型可以在推理过程中实时淘汰低质量路径，节省不必要的计算。研究者提出多种高效 Best-of-N 变体，例如“ HALF 300 ”策略，即每生成 300 个 token，就淘汰当前置信度最低的 50% 路径，最终保留得分最高者。结果显示，与标准的 Best-of-128 策略相比，OTV 高效策略在计算量减少近 90% 的前提下，仍能保持最优或接近最优的准确率。

△不同方法在高效推理设置下的准确率与输出长度对比。

更直观的对比来自可视化分析。研究者展示了多个问题下，OTV 与其他方法对推理路径的置信度得分评分轨迹。图中红色为最终正确路径，绿色为错误路径。

△不同方法在三个问题上多路径的得分变化轨迹。

可以清晰看到：

对于传统方法（如 DeepConf 或外部过程奖励模型），红绿轨迹往往缠绕混杂，缺乏单调性，无法稳定区分优劣；

而在 OTV 的评分下，红色轨迹稳定上升，呈现出推理逐步走向正确的趋势，而绿色轨迹则通常被压制在低置信区间内。

这一对比直观说明：OTV 捕捉到的信号更稳定、更真实，也更具有区分度，能够反映模型内部推理过程的质量变化，从而为最终决策提供可靠依据。

此外，研究者还进行了多项消融实验，进一步验证了 OTV 各组件的作用与稳定性，包括仅使用回归头、调整 LoRA 秩、采用不同启发式监督策略等。即便在更贴近实际微调场景的 Base 模型（未经过后训练）上，OTV 依然展现出稳定的性能提升，验证了其方法的通用性与鲁棒性。在附录中，作者还提供了更细粒度的推理可视化分析与文本扰动敏感性评估，为 OTV 在实际应用中的解释性与稳健性提供了进一步支持。

△在仅使用回归头和不同 LoRA 秩设置下，OTV 的训练损失与性能对比分析总结与展望

这篇论文提出的单 Token 验证（OTV）框架，通过巧妙地重用 LoRA 和探测 KV 缓存，为大语言模型的推理质量评估提供了一个极致轻量、实时、无损且模型原生的解决方案。OTV 体现了基于对 Transformer 架构深刻理解的“最小化、靶向性干预”的设计哲学。它揭示了，通往更强大、更可靠 AI 的道路有时需要深入模型内部，唤醒其“自知之明”的智慧。

展望未来，OTV 为后续研究开辟了广阔空间。一方面，可以探索验证器与原模型更深层次的融合机制，实现推理与评估的协同演化；另一方面，当前基于二元置信度（正确 / 错误）的设计可扩展为引入“不确定”状态的三元系统，使模型具备选择性预测能力，在面对模糊或低信号任务时学会“谨慎作答”和主动学习。同时，OTV 所提供的置信度信号具备安全控制的潜力：当模型在生成过程中暴露出异常推理模式或高风险倾向时，验证器可实时发出预警，主动终止不安全路径的生成。

此外，未来还可将 OTV 思路推广到不同架构的模型中，并结合对 KV 缓存结构的优化，进一步挖掘其在推理效率与表示利用方面的潜力。研究团队认为，赋予模型“自知之明”的这类探索，将成为推动下一代可信、安全、可控 AI 系统的重要基石。

论文链接：https://openreview.net/pdf?id=QewOtpenMy

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情