正文

VeriGate：为 GRPO 引入验证器门控的逐步监督机制，提升大模型推理能力

VeriGate 通过验证器门控机制改进 GRPO 训练，在验证器奖励失效时启用过程监督，将 PRM 步骤分数转化为未来累积奖励，实现细粒度的信用分配，显著减少零梯度失败和奖励作弊行为。

GRPOVeriGate过程监督推理模型验证器门控奖励作弊大语言模型强化学习

发布时间 2026/05/29 02:20最近活动 2026/06/01 12:18预计阅读 1 分钟

章节 01

VeriGate：引入验证器门控提升大模型推理能力的新方法

VeriGate通过验证器门控机制改进GRPO训练，在验证器奖励失效时启用过程监督，将PRM步骤分数转化为未来累积奖励实现细粒度信用分配，显著减少零梯度失败和奖励作弊行为，提升大模型推理能力。

章节 02

GRPO通过验证器提供基于结果的奖励训练推理模型，但监督信号过于稀疏：当所有采样轨迹获相同验证器奖励时，组相对优势坍缩为零导致学习停滞；仅基于结果的奖励无法提供步骤级信用分配，限制模型探索能力。

章节 03

验证器门控机制：验证器奖励能排序轨迹时继续使用，退化时启用过程监督；2. 未来累积奖励转换：将PRM步骤分数转为未来累积奖励，考虑步骤对后续影响；3. 组归一化词元级优势：转换奖励为组归一化词元级优势，恢复梯度信号，更鲁棒于奖励作弊。

章节 04

在MATH数据集上用1.5B和7B参数Qwen2.5-Instruct模型训练，六个推理基准评估：1.5B模型平均准确率提升约20%，7B模型提升约12%；还减少零梯度失败、奖励作弊，改善推理质量。

章节 05

技术意义：提供更精细监督机制，解决监督稀疏和信用分配粗糙问题，减少奖励作弊；应用前景：可用于数学推理、代码生成、逻辑推理等多步骤任务，随大模型复杂任务应用增多更重要。

章节 06

训练推理模型需关注中间过程监督，验证器与过程奖励模型结合、细粒度信用分配是提升推理能力的关键，为未来推理模型训练方法设计提供参考。