正文

POPO：无需负样本的强化学习新范式

POPO通过仅使用正样本rollout进行策略优化，利用隐式负梯度实现高效学习，在AIME 2025上比GRPO提升6.67个百分点。

强化学习RLVR策略优化正样本学习大语言模型数学推理

发布时间 2026/05/08 01:55最近活动 2026/05/08 15:21预计阅读 2 分钟

章节 01

【导读】POPO：无需负样本的强化学习新范式核心解读

POPO是一种无需负样本的强化学习新范式，通过仅使用正样本rollout进行策略优化，利用隐式负梯度实现高效学习。该框架在AIME 2025上使用Qwen-Math-7B模型取得36.67%的成绩，比GRPO提升6.67个百分点，挑战了RLVR必须依赖正负样本对比的传统认知。

章节 02

背景：RLVR的演进与负样本的固有缺陷

基于可验证奖励的强化学习（RLVR）已成为提升大语言模型推理能力的主流范式。从PPO到GRPO的演进中，算法简化带来效率提升——GRPO用分组正负样本的简单估计替代复杂优势估计。然而，负样本存在固有缺陷：失败程度缺乏梯度区分，且组合爆炸使得少量采样难以覆盖有意义的奖励信号。

章节 03

POPO的核心解决方案：仅用正样本的策略优化

研究团队提出的POPO（Positive-Only Policy Optimization）框架，完全通过在线正样本rollout进行学习。其关键洞见在于：通过强化正样本概率，隐式负梯度会自然涌现——提升正样本概率的同时相对降低负样本概率，实现无需显式负样本的优化效果。该框架利用有界重要性采样处理正样本集合，不依赖任何负样本进行梯度指导。

章节 04

POPO的训练稳定机制

POPO通过两种机制稳定策略优化：

双生策略网络与动量自适应：采用双生策略网络结构，基于动量的自适应法则实现稳定策略演进，避免训练震荡。
有界相似性惩罚：用表示空间中的有界相似性惩罚项替代传统KL散度约束，在保持策略不偏离参考点的同时提供更灵活的优化空间。

章节 05

实验证据：POPO的性能表现

研究团队使用Qwen系列等公开主流文本大模型，在多个数学基准测试上实验：

POPO性能与GRPO相当甚至更优；
Qwen-Math-7B在AIME 2025上达到36.67%，超过GRPO的30.00%；
消融研究和参数扫描验证了各组件的必要性和鲁棒性。

章节 06

结论：POPO的意义与突破

POPO的成功挑战了RLVR必须依赖正负样本对比的传统认知。它简化了算法实现（无需生成和管理负样本），还可能避免负样本带来的噪声和偏差，对需要大量采样的大规模RL训练具有重要实践价值。

章节 07

未来研究建议

未来可进一步探索POPO在其他任务类型（如代码生成、科学推理）上的适用性，以及与其他优化技术的结合可能性。

POPO：无需负样本的强化学习新范式

【导读】POPO：无需负样本的强化学习新范式核心解读

背景：RLVR的演进与负样本的固有缺陷

POPO的核心解决方案：仅用正样本的策略优化

POPO的训练稳定机制

实验证据：POPO的性能表现

结论：POPO的意义与突破

未来研究建议

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统