章节 01
【导读】POPO:无需负样本的强化学习新范式核心解读
POPO是一种无需负样本的强化学习新范式,通过仅使用正样本rollout进行策略优化,利用隐式负梯度实现高效学习。该框架在AIME 2025上使用Qwen-Math-7B模型取得36.67%的成绩,比GRPO提升6.67个百分点,挑战了RLVR必须依赖正负样本对比的传统认知。
正文
POPO通过仅使用正样本rollout进行策略优化,利用隐式负梯度实现高效学习,在AIME 2025上比GRPO提升6.67个百分点。
章节 01
POPO是一种无需负样本的强化学习新范式,通过仅使用正样本rollout进行策略优化,利用隐式负梯度实现高效学习。该框架在AIME 2025上使用Qwen-Math-7B模型取得36.67%的成绩,比GRPO提升6.67个百分点,挑战了RLVR必须依赖正负样本对比的传统认知。
章节 02
基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的主流范式。从PPO到GRPO的演进中,算法简化带来效率提升——GRPO用分组正负样本的简单估计替代复杂优势估计。然而,负样本存在固有缺陷:失败程度缺乏梯度区分,且组合爆炸使得少量采样难以覆盖有意义的奖励信号。
章节 03
研究团队提出的POPO(Positive-Only Policy Optimization)框架,完全通过在线正样本rollout进行学习。其关键洞见在于:通过强化正样本概率,隐式负梯度会自然涌现——提升正样本概率的同时相对降低负样本概率,实现无需显式负样本的优化效果。该框架利用有界重要性采样处理正样本集合,不依赖任何负样本进行梯度指导。
章节 04
POPO通过两种机制稳定策略优化:
章节 05
研究团队使用Qwen系列等公开主流文本大模型,在多个数学基准测试上实验:
章节 06
POPO的成功挑战了RLVR必须依赖正负样本对比的传统认知。它简化了算法实现(无需生成和管理负样本),还可能避免负样本带来的噪声和偏差,对需要大量采样的大规模RL训练具有重要实践价值。
章节 07
未来可进一步探索POPO在其他任务类型(如代码生成、科学推理)上的适用性,以及与其他优化技术的结合可能性。