正文

STV：自训练验证器解锁推理模型的自我改进能力

STV通过利用参考答案训练验证器识别自生成错误，在测试时V-R循环和训练时ViL训练中都取得显著效果，为推理模型的自我改进开辟了新路径。

自训练验证器验证-精化循环Verifier-in-the-Loop推理模型自我改进强化学习

发布时间 2026/05/29 01:40最近活动 2026/05/29 14:27预计阅读 2 分钟

章节 01

【导读】STV：自训练验证器解锁推理模型自我改进新路径

STV（自训练验证器）通过利用参考答案训练验证器识别自生成错误，成功突破推理模型自我改进的瓶颈。该方法在测试时的验证-精化循环（V-R loops）和训练时的Verifier-in-the-Loop（ViL）训练中均取得显著效果，为推理模型的自我改进开辟了新路径。核心在于利用“有参考时能准确判断错误，无参考时难以识别”的不对称性，将知情验证能力蒸馏到无参考验证器中。

章节 02

【背景】推理模型自我改进的双重困境与核心瓶颈

推理模型自我改进面临两大场景的瓶颈：

测试时：V-R循环易因验证器分数虚高、反馈笼统陷入僵局；
训练时：自训练加入错误数据导致性能下降。两者共同核心问题是验证器质量——缺乏捕捉自生成错误的训练信号，而所需能力恰是待训练的目标。

章节 03

【方法】STV的核心洞察与实现机制

核心洞察

模型在有参考答案时能准确判断自生成答案正误，无参考时则易高估质量，STV利用此不对称性转化为监督信号。

训练流程

生成候选答案；2. 获取参考答案；3. 以有参考时的判断为监督目标；4. 训练验证器复现无参考时的判断能力。

关键技巧

蒸馏“有参考验证能力”到无参考验证器，兼容结果验证器、过程验证器、critiques模型等架构。

章节 04

【证据】STV在测试与训练时的显著效果

测试时效果

对比SFT、RL on verifier scores、Meta-verifiers等方法，STV在困难任务突破明显；
困难数学问题准确率翻倍，科学推理任务从1.5%升至21%（提升14倍）。

训练时效果（ViL训练）

从标准RL收敛点出发，ViL进一步提升33% pass@1；
训练后生成器无验证器时，独立pass@1仍比标准RL高30%（内化推理策略）。

章节 05

【结论】STV的深层启示与方法优势

深层启示

验证器可作为生成器的有效教师：标准RL奖励信号稀疏延迟，ViL提供过程级、可行动反馈及高质量数据筛选，实现自适应课程学习。

方法优势

数据效率：无需额外人工标注；
通用性：兼容任意生成器/验证器架构；
效果可叠加：在标准RL基础上进一步提升；
解释性：反馈含具体错误分析。

章节 06

【展望】STV的局限性与未来研究方向

局限性

依赖高质量参考答案；
验证器与生成器能力需匹配；
ViL训练计算开销大。

未来方向

迭代式STV（生成器与验证器相互提升）；
多任务验证能力迁移；
结合过程奖励模型、蒙特卡洛树搜索；
理论分析验证器质量与生成器改进的关系。

章节 07

【总结】STV对推理模型自我改进的意义

STV通过巧妙利用参考答案不对称性，解锁了推理模型在测试和训练时的自我改进能力。ViL训练的“内化效应”重新定义了验证器角色——从辅助组件变为训练核心驱动力。该方法为构建持续自我改进的AI系统提供了可行路径，提醒研究者重视验证能力与生成能力的相辅相成。