Zing 论坛

正文

VeriGate:为 GRPO 引入验证器门控的逐步监督机制,提升大模型推理能力

VeriGate 通过验证器门控机制改进 GRPO 训练,在验证器奖励失效时启用过程监督,将 PRM 步骤分数转化为未来累积奖励,实现细粒度的信用分配,显著减少零梯度失败和奖励作弊行为。

GRPOVeriGate过程监督推理模型验证器门控奖励作弊大语言模型强化学习
发布时间 2026/05/29 02:20最近活动 2026/06/01 12:18预计阅读 1 分钟
VeriGate:为 GRPO 引入验证器门控的逐步监督机制,提升大模型推理能力
1

章节 01

VeriGate:引入验证器门控提升大模型推理能力的新方法

VeriGate通过验证器门控机制改进GRPO训练,在验证器奖励失效时启用过程监督,将PRM步骤分数转化为未来累积奖励实现细粒度信用分配,显著减少零梯度失败和奖励作弊行为,提升大模型推理能力。

2

章节 02

研究背景:GRPO的稀疏监督困境

GRPO通过验证器提供基于结果的奖励训练推理模型,但监督信号过于稀疏:当所有采样轨迹获相同验证器奖励时,组相对优势坍缩为零导致学习停滞;仅基于结果的奖励无法提供步骤级信用分配,限制模型探索能力。

3

章节 03

VeriGate的核心设计思想

  1. 验证器门控机制:验证器奖励能排序轨迹时继续使用,退化时启用过程监督;2. 未来累积奖励转换:将PRM步骤分数转为未来累积奖励,考虑步骤对后续影响;3. 组归一化词元级优势:转换奖励为组归一化词元级优势,恢复梯度信号,更鲁棒于奖励作弊。
4

章节 04

实验验证:显著提升推理准确率

在MATH数据集上用1.5B和7B参数Qwen2.5-Instruct模型训练,六个推理基准评估:1.5B模型平均准确率提升约20%,7B模型提升约12%;还减少零梯度失败、奖励作弊,改善推理质量。

5

章节 05

技术意义与应用前景

技术意义:提供更精细监督机制,解决监督稀疏和信用分配粗糙问题,减少奖励作弊;应用前景:可用于数学推理、代码生成、逻辑推理等多步骤任务,随大模型复杂任务应用增多更重要。

6

章节 06

关键启示:过程监督与细粒度分配的重要性

训练推理模型需关注中间过程监督,验证器与过程奖励模型结合、细粒度信用分配是提升推理能力的关键,为未来推理模型训练方法设计提供参考。