章节 01
【导读】POPO:无需负样本提升大模型推理能力的新范式
本文介绍Positive-Only Policy Optimization (POPO)——一种无需负样本即可训练大语言模型推理能力的强化学习新方法。该方法解决了GRPO中负样本无法反映失败程度梯度的问题,在AIME 2025基准测试上超越GRPO达6.67个百分点,核心在于仅通过正样本优化实现模型推理能力提升。
正文
本文介绍了Positive-Only Policy Optimization (POPO),一种无需负样本即可训练大语言模型推理能力的强化学习新方法,在AIME 2025上超越GRPO达6.67个百分点。
章节 01
本文介绍Positive-Only Policy Optimization (POPO)——一种无需负样本即可训练大语言模型推理能力的强化学习新方法。该方法解决了GRPO中负样本无法反映失败程度梯度的问题,在AIME 2025基准测试上超越GRPO达6.67个百分点,核心在于仅通过正样本优化实现模型推理能力提升。
章节 02
近年来,基于可验证奖励的强化学习(RLVR)成为提升大模型推理能力的主流范式。Group Relative Policy Optimization (GRPO)通过简化优势估计机制在数学推理任务取得进展,但存在根本性问题:负样本可能无法反映失败程度的梯度,在稀疏二元奖励场景下,奖励信号不够丰富,模型难以学习细粒度改进方向。
章节 03
POPO的核心理念是完全通过在线正样本进行策略优化,无需显式使用负样本。其采用有界重要性采样技术,关键洞见在于隐式负梯度可通过正样本概率重新分配自然涌现:强化正样本生成概率时,其他样本(含负样本)相对概率自然下降,等价于隐式梯度惩罚,避免负样本带来的噪声和不稳定性。
章节 04
为提升训练稳定性,POPO引入两项创新:
章节 05
在Qwen系列模型上的实验结果显著:
| 模型 | 方法 | AIME 2025 |
|---|---|---|
| Qwen-Math-7B | GRPO | 30.00% |
| Qwen-Math-7B | POPO | 36.67% |
| POPO在AIME 2025上提升6.67个百分点,消融实验证明孪生网络和有界相似性惩罚是必要稳定措施。 |
章节 06
理论层面:挑战RL领域需显式处理负样本的假设,启发样本效率研究; 实践层面:简化RLVR训练流程,减少50%推理计算开销,避免负样本筛选规则,降低超参数调优空间; 未来展望:扩展到代码生成、逻辑推理等任务,探索与测试时计算扩展结合提升推理深度。
章节 07
POPO是大语言模型后训练领域的重要进展,通过概率分布归一化约束实现无负样本强化学习,保持稳定性同时超越现有方法。不仅提供即插即用的训练改进方案,也为理解RLVR本质机制提供新视角。