Zing 论坛

正文

STV:自训练验证器解锁推理模型的自我改进能力

STV通过利用参考答案训练验证器识别自生成错误,在测试时V-R循环和训练时ViL训练中都取得显著效果,为推理模型的自我改进开辟了新路径。

自训练验证器验证-精化循环Verifier-in-the-Loop推理模型自我改进强化学习
发布时间 2026/05/29 01:40最近活动 2026/05/29 14:27预计阅读 2 分钟
STV:自训练验证器解锁推理模型的自我改进能力
1

章节 01

【导读】STV:自训练验证器解锁推理模型自我改进新路径

STV(自训练验证器)通过利用参考答案训练验证器识别自生成错误,成功突破推理模型自我改进的瓶颈。该方法在测试时的验证-精化循环(V-R loops)和训练时的Verifier-in-the-Loop(ViL)训练中均取得显著效果,为推理模型的自我改进开辟了新路径。核心在于利用“有参考时能准确判断错误,无参考时难以识别”的不对称性,将知情验证能力蒸馏到无参考验证器中。

2

章节 02

【背景】推理模型自我改进的双重困境与核心瓶颈

推理模型自我改进面临两大场景的瓶颈:

  1. 测试时:V-R循环易因验证器分数虚高、反馈笼统陷入僵局;
  2. 训练时:自训练加入错误数据导致性能下降。 两者共同核心问题是验证器质量——缺乏捕捉自生成错误的训练信号,而所需能力恰是待训练的目标。
3

章节 03

【方法】STV的核心洞察与实现机制

核心洞察

模型在有参考答案时能准确判断自生成答案正误,无参考时则易高估质量,STV利用此不对称性转化为监督信号。

训练流程

  1. 生成候选答案;2. 获取参考答案;3. 以有参考时的判断为监督目标;4. 训练验证器复现无参考时的判断能力。

关键技巧

蒸馏“有参考验证能力”到无参考验证器,兼容结果验证器、过程验证器、critiques模型等架构。

4

章节 04

【证据】STV在测试与训练时的显著效果

测试时效果

  • 对比SFT、RL on verifier scores、Meta-verifiers等方法,STV在困难任务突破明显;
  • 困难数学问题准确率翻倍,科学推理任务从1.5%升至21%(提升14倍)。

训练时效果(ViL训练)

  • 从标准RL收敛点出发,ViL进一步提升33% pass@1;
  • 训练后生成器无验证器时,独立pass@1仍比标准RL高30%(内化推理策略)。
5

章节 05

【结论】STV的深层启示与方法优势

深层启示

验证器可作为生成器的有效教师:标准RL奖励信号稀疏延迟,ViL提供过程级、可行动反馈及高质量数据筛选,实现自适应课程学习。

方法优势

  • 数据效率:无需额外人工标注;
  • 通用性:兼容任意生成器/验证器架构;
  • 效果可叠加:在标准RL基础上进一步提升;
  • 解释性:反馈含具体错误分析。
6

章节 06

【展望】STV的局限性与未来研究方向

局限性

  • 依赖高质量参考答案;
  • 验证器与生成器能力需匹配;
  • ViL训练计算开销大。

未来方向

  • 迭代式STV(生成器与验证器相互提升);
  • 多任务验证能力迁移;
  • 结合过程奖励模型、蒙特卡洛树搜索;
  • 理论分析验证器质量与生成器改进的关系。
7

章节 07

【总结】STV对推理模型自我改进的意义

STV通过巧妙利用参考答案不对称性,解锁了推理模型在测试和训练时的自我改进能力。ViL训练的“内化效应”重新定义了验证器角色——从辅助组件变为训练核心驱动力。该方法为构建持续自我改进的AI系统提供了可行路径,提醒研究者重视验证能力与生成能力的相辅相成。