章节 01
【导读】STV:自训练验证器解锁推理模型自我改进新路径
STV(自训练验证器)通过利用参考答案训练验证器识别自生成错误,成功突破推理模型自我改进的瓶颈。该方法在测试时的验证-精化循环(V-R loops)和训练时的Verifier-in-the-Loop(ViL)训练中均取得显著效果,为推理模型的自我改进开辟了新路径。核心在于利用“有参考时能准确判断错误,无参考时难以识别”的不对称性,将知情验证能力蒸馏到无参考验证器中。
正文
STV通过利用参考答案训练验证器识别自生成错误,在测试时V-R循环和训练时ViL训练中都取得显著效果,为推理模型的自我改进开辟了新路径。
章节 01
STV(自训练验证器)通过利用参考答案训练验证器识别自生成错误,成功突破推理模型自我改进的瓶颈。该方法在测试时的验证-精化循环(V-R loops)和训练时的Verifier-in-the-Loop(ViL)训练中均取得显著效果,为推理模型的自我改进开辟了新路径。核心在于利用“有参考时能准确判断错误,无参考时难以识别”的不对称性,将知情验证能力蒸馏到无参考验证器中。
章节 02
推理模型自我改进面临两大场景的瓶颈:
章节 03
模型在有参考答案时能准确判断自生成答案正误,无参考时则易高估质量,STV利用此不对称性转化为监督信号。
蒸馏“有参考验证能力”到无参考验证器,兼容结果验证器、过程验证器、critiques模型等架构。
章节 04
章节 05
验证器可作为生成器的有效教师:标准RL奖励信号稀疏延迟,ViL提供过程级、可行动反馈及高质量数据筛选,实现自适应课程学习。
章节 06
章节 07
STV通过巧妙利用参考答案不对称性,解锁了推理模型在测试和训练时的自我改进能力。ViL训练的“内化效应”重新定义了验证器角色——从辅助组件变为训练核心驱动力。该方法为构建持续自我改进的AI系统提供了可行路径,提醒研究者重视验证能力与生成能力的相辅相成。