章节 01
【导读】GRPO-VPS:可验证过程监督提升LLM推理效率与准确性
本文提出GRPO-VPS(Verifiable Process Supervision)方法,通过探测模型推理过程中的信念变化实现细粒度过程监督。该方法无需额外模型和蒙特卡洛采样,在数学推理任务上实现2.6%准确率提升和13.7%推理长度缩减,平衡推理效果与效率。
正文
GRPO-VPS通过探测模型推理过程中的信念变化实现细粒度过程监督,在数学推理任务上实现2.6%准确率提升和13.7%推理长度缩减。
章节 01
本文提出GRPO-VPS(Verifiable Process Supervision)方法,通过探测模型推理过程中的信念变化实现细粒度过程监督。该方法无需额外模型和蒙特卡洛采样,在数学推理任务上实现2.6%准确率提升和13.7%推理长度缩减,平衡推理效果与效率。
章节 02
传统监督微调(SFT)依赖人工标注推理过程,成本高且难规模化。可验证奖励的强化学习(RLVR)范式通过验证最终答案提供信号,无需过程标注。
组相对策略优化(GRPO)消除critic模型依赖,但轨迹级反馈机制导致粗粒度信用分配:
章节 03
通过测量推理过程中模型对正确答案的条件概率变化判断推理方向:信念上升→正向贡献,下降→错误/偏离,停滞→冗余。
整合段落级进度到GRPO训练:正向进度段落给予更高优势估计,信念下降段落惩罚,冗余段落鼓励简洁,提升样本效率。
章节 04
| 方法 | 过程监督 | 额外模型 | 计算成本 | 主要局限 |
|---|---|---|---|---|
| GRPO | 无 | 无 | 低 | 粗粒度反馈 |
| PRM-based | 有 | 需要PRM | 中 | PRM训练成本高 |
| MCTS/Tree | 有 | 无 | 高 | 蒙特卡洛采样开销大 |
| GRPO-VPS | 有 | 无 | 低 | 需设计分段策略 |
章节 05
章节 06
章节 07
GRPO-VPS通过信念探测机制,在无需额外标注的情况下实现细粒度过程监督,为RLVR范式发展提供新思路。它同时提升推理准确性与效率,对LLM在数学、科学等复杂推理领域的应用具有重要价值。