正文

MaxPO：面向推理模型后训练的新策略梯度方法

本文介绍MaxPO方法，通过Leave-Two-Out基线解决max@K策略梯度中的优势估计问题，为LLM推理模型后训练提供更稳定的优化信号。

强化学习策略梯度推理模型后训练max@KGRPO优势估计LLM优化

发布时间 2026/06/04 20:16最近活动 2026/06/05 19:17预计阅读 2 分钟

章节 01

导读：MaxPO——推理模型后训练的新策略梯度方法

本文介绍MaxPO方法，通过Leave-Two-Out（L2O）基线解决max@K策略梯度中的优势估计问题，为大语言模型（LLM）推理模型后训练提供更稳定的优化信号。该方法旨在缓解推理任务中奖励稀疏性带来的训练挑战，提升模型训练的稳定性与效率。

原论文来源：arXiv（2026年6月4日发布，链接：http://arxiv.org/abs/2606.06080v1）

章节 02

背景：推理模型后训练的挑战与现有方法困境

推理模型后训练的挑战

大语言模型推理能力依赖强化学习后训练，但推理任务奖励稀疏（仅最终答案正确时给予奖励），导致模型探索困难，难以从失败中学习改进。

现有方法的困境

为缓解稀疏奖励，研究者提出优化max@K目标（K次尝试中最佳结果的期望奖励），但现有估计器存在关系模糊、优势估计非中心化问题，易导致梯度更新方向偏移，训练不稳定。

章节 03

MaxPO方法：Leave-Two-Out基线与理论贡献

核心创新：Leave-Two-Out（L2O）基线

评估样本对max@K的贡献时，排除该样本及当前批次中竞争最大的样本，确保优势估计中心性（批次内期望为零），减少梯度方差。

算法实现

二次时间复杂度，GPU高效并行，适配GRPO等基于组的强化学习框架，无需修改现有训练流水线。

理论贡献

推导max@K目标的规范优势估计，统一现有方法解释框架：现有方法为规范估计的近似，差异在于基线选择与归一化策略；L2O基线平衡方差与偏差。

章节 04

实验验证：MaxPO的有效性表现

梯度方差减少

L2O基线降低梯度估计方差，减少高维策略空间中的训练震荡与发散风险，无需更小学习率或更长收敛时间。

性能提升

与未中心化方案相比，MaxPO在多个推理任务上表现更优，提升来自更精确的梯度信号，非依赖复杂结构或额外资源。

章节 05

实践意义与未来展望

实践价值

训练稳定性：中心化优势估计减少训练震荡与发散风险；
样本效率：精确梯度从相同样本中提取更多信息，降低计算成本；
通用性：适用于数学推理、代码生成、定理证明等max@K场景；
兼容性：无缝集成GRPO、PPO等主流RL框架，即插即用。

展望

可进一步推广至更多任务场景，为LLM推理优化提供基础工具。

章节 06

结语：MaxPO的长远价值

MaxPO通过严谨数学推导与精巧算法设计，为推理模型后训练提供可靠基础组件。在LLM推理能力竞赛中，对基础优化方法的改进比追逐模型规模更具长远价值，突破往往来自对已有方法的细致审视而非盲目堆砌复杂度。