Zing 论坛

正文

MaxPO:面向推理模型后训练的新策略梯度方法

本文介绍MaxPO方法,通过Leave-Two-Out基线解决max@K策略梯度中的优势估计问题,为LLM推理模型后训练提供更稳定的优化信号。

强化学习策略梯度推理模型后训练max@KGRPO优势估计LLM优化
发布时间 2026/06/04 20:16最近活动 2026/06/05 19:17预计阅读 2 分钟
MaxPO:面向推理模型后训练的新策略梯度方法
1

章节 01

导读:MaxPO——推理模型后训练的新策略梯度方法

本文介绍MaxPO方法,通过Leave-Two-Out(L2O)基线解决max@K策略梯度中的优势估计问题,为大语言模型(LLM)推理模型后训练提供更稳定的优化信号。该方法旨在缓解推理任务中奖励稀疏性带来的训练挑战,提升模型训练的稳定性与效率。

原论文来源:arXiv(2026年6月4日发布,链接:http://arxiv.org/abs/2606.06080v1)

2

章节 02

背景:推理模型后训练的挑战与现有方法困境

推理模型后训练的挑战

大语言模型推理能力依赖强化学习后训练,但推理任务奖励稀疏(仅最终答案正确时给予奖励),导致模型探索困难,难以从失败中学习改进。

现有方法的困境

为缓解稀疏奖励,研究者提出优化max@K目标(K次尝试中最佳结果的期望奖励),但现有估计器存在关系模糊、优势估计非中心化问题,易导致梯度更新方向偏移,训练不稳定。

3

章节 03

MaxPO方法:Leave-Two-Out基线与理论贡献

核心创新:Leave-Two-Out(L2O)基线

评估样本对max@K的贡献时,排除该样本及当前批次中竞争最大的样本,确保优势估计中心性(批次内期望为零),减少梯度方差。

算法实现

二次时间复杂度,GPU高效并行,适配GRPO等基于组的强化学习框架,无需修改现有训练流水线。

理论贡献

推导max@K目标的规范优势估计,统一现有方法解释框架:现有方法为规范估计的近似,差异在于基线选择与归一化策略;L2O基线平衡方差与偏差。

4

章节 04

实验验证:MaxPO的有效性表现

梯度方差减少

L2O基线降低梯度估计方差,减少高维策略空间中的训练震荡与发散风险,无需更小学习率或更长收敛时间。

性能提升

与未中心化方案相比,MaxPO在多个推理任务上表现更优,提升来自更精确的梯度信号,非依赖复杂结构或额外资源。

5

章节 05

实践意义与未来展望

实践价值

  1. 训练稳定性:中心化优势估计减少训练震荡与发散风险;
  2. 样本效率:精确梯度从相同样本中提取更多信息,降低计算成本;
  3. 通用性:适用于数学推理、代码生成、定理证明等max@K场景;
  4. 兼容性:无缝集成GRPO、PPO等主流RL框架,即插即用。

展望

可进一步推广至更多任务场景,为LLM推理优化提供基础工具。

6

章节 06

结语:MaxPO的长远价值

MaxPO通过严谨数学推导与精巧算法设计,为推理模型后训练提供可靠基础组件。在LLM推理能力竞赛中,对基础优化方法的改进比追逐模型规模更具长远价值,突破往往来自对已有方法的细致审视而非盲目堆砌复杂度。