章节 01
导读:MaxPO——推理模型后训练的新策略梯度方法
本文介绍MaxPO方法,通过Leave-Two-Out(L2O)基线解决max@K策略梯度中的优势估计问题,为大语言模型(LLM)推理模型后训练提供更稳定的优化信号。该方法旨在缓解推理任务中奖励稀疏性带来的训练挑战,提升模型训练的稳定性与效率。
原论文来源:arXiv(2026年6月4日发布,链接:http://arxiv.org/abs/2606.06080v1)
正文
本文介绍MaxPO方法,通过Leave-Two-Out基线解决max@K策略梯度中的优势估计问题,为LLM推理模型后训练提供更稳定的优化信号。
章节 01
本文介绍MaxPO方法,通过Leave-Two-Out(L2O)基线解决max@K策略梯度中的优势估计问题,为大语言模型(LLM)推理模型后训练提供更稳定的优化信号。该方法旨在缓解推理任务中奖励稀疏性带来的训练挑战,提升模型训练的稳定性与效率。
原论文来源:arXiv(2026年6月4日发布,链接:http://arxiv.org/abs/2606.06080v1)
章节 02
大语言模型推理能力依赖强化学习后训练,但推理任务奖励稀疏(仅最终答案正确时给予奖励),导致模型探索困难,难以从失败中学习改进。
为缓解稀疏奖励,研究者提出优化max@K目标(K次尝试中最佳结果的期望奖励),但现有估计器存在关系模糊、优势估计非中心化问题,易导致梯度更新方向偏移,训练不稳定。
章节 03
评估样本对max@K的贡献时,排除该样本及当前批次中竞争最大的样本,确保优势估计中心性(批次内期望为零),减少梯度方差。
二次时间复杂度,GPU高效并行,适配GRPO等基于组的强化学习框架,无需修改现有训练流水线。
推导max@K目标的规范优势估计,统一现有方法解释框架:现有方法为规范估计的近似,差异在于基线选择与归一化策略;L2O基线平衡方差与偏差。
章节 04
L2O基线降低梯度估计方差,减少高维策略空间中的训练震荡与发散风险,无需更小学习率或更长收敛时间。
与未中心化方案相比,MaxPO在多个推理任务上表现更优,提升来自更精确的梯度信号,非依赖复杂结构或额外资源。
章节 05
可进一步推广至更多任务场景,为LLM推理优化提供基础工具。
章节 06
MaxPO通过严谨数学推导与精巧算法设计,为推理模型后训练提供可靠基础组件。在LLM推理能力竞赛中,对基础优化方法的改进比追逐模型规模更具长远价值,突破往往来自对已有方法的细致审视而非盲目堆砌复杂度。