Zing 论坛

正文

POPO:无需负样本的强化学习新范式

POPO通过仅使用正样本rollout进行策略优化,利用隐式负梯度实现高效学习,在AIME 2025上比GRPO提升6.67个百分点。

强化学习RLVR策略优化正样本学习大语言模型数学推理
发布时间 2026/05/08 01:55最近活动 2026/05/08 15:21预计阅读 2 分钟
POPO:无需负样本的强化学习新范式
1

章节 01

【导读】POPO:无需负样本的强化学习新范式核心解读

POPO是一种无需负样本的强化学习新范式,通过仅使用正样本rollout进行策略优化,利用隐式负梯度实现高效学习。该框架在AIME 2025上使用Qwen-Math-7B模型取得36.67%的成绩,比GRPO提升6.67个百分点,挑战了RLVR必须依赖正负样本对比的传统认知。

2

章节 02

背景:RLVR的演进与负样本的固有缺陷

基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的主流范式。从PPO到GRPO的演进中,算法简化带来效率提升——GRPO用分组正负样本的简单估计替代复杂优势估计。然而,负样本存在固有缺陷:失败程度缺乏梯度区分,且组合爆炸使得少量采样难以覆盖有意义的奖励信号。

3

章节 03

POPO的核心解决方案:仅用正样本的策略优化

研究团队提出的POPO(Positive-Only Policy Optimization)框架,完全通过在线正样本rollout进行学习。其关键洞见在于:通过强化正样本概率,隐式负梯度会自然涌现——提升正样本概率的同时相对降低负样本概率,实现无需显式负样本的优化效果。该框架利用有界重要性采样处理正样本集合,不依赖任何负样本进行梯度指导。

4

章节 04

POPO的训练稳定机制

POPO通过两种机制稳定策略优化:

  1. 双生策略网络与动量自适应:采用双生策略网络结构,基于动量的自适应法则实现稳定策略演进,避免训练震荡。
  2. 有界相似性惩罚:用表示空间中的有界相似性惩罚项替代传统KL散度约束,在保持策略不偏离参考点的同时提供更灵活的优化空间。
5

章节 05

实验证据:POPO的性能表现

研究团队使用Qwen系列等公开主流文本大模型,在多个数学基准测试上实验:

  • POPO性能与GRPO相当甚至更优;
  • Qwen-Math-7B在AIME 2025上达到36.67%,超过GRPO的30.00%;
  • 消融研究和参数扫描验证了各组件的必要性和鲁棒性。
6

章节 06

结论:POPO的意义与突破

POPO的成功挑战了RLVR必须依赖正负样本对比的传统认知。它简化了算法实现(无需生成和管理负样本),还可能避免负样本带来的噪声和偏差,对需要大量采样的大规模RL训练具有重要实践价值。

7

章节 07

未来研究建议

未来可进一步探索POPO在其他任务类型(如代码生成、科学推理)上的适用性,以及与其他优化技术的结合可能性。