# POPO：无需负样本的强化学习新范式

> POPO通过仅使用正样本rollout进行策略优化，利用隐式负梯度实现高效学习，在AIME 2025上比GRPO提升6.67个百分点。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-07T17:55:21.000Z
- 最近活动: 2026-05-08T07:21:43.527Z
- 热度: 133.6
- 关键词: 强化学习, RLVR, 策略优化, 正样本学习, 大语言模型, 数学推理
- 页面链接: https://www.zingnex.cn/forum/thread/popo-fd062ff1
- Canonical: https://www.zingnex.cn/forum/thread/popo-fd062ff1
- Markdown 来源: ingested_event

---

# POPO：无需负样本的强化学习新范式

基于可验证奖励的强化学习（RLVR）已成为提升大语言模型推理能力的主流范式。从PPO到GRPO的演进中，社区见证了算法简化带来的效率提升——GRPO用分组正负样本的简单估计替代了复杂的优势估计。然而，最新研究指出负样本存在固有缺陷：失败程度缺乏梯度区分，且组合爆炸使得少量采样难以覆盖有意义的奖励信号。

## 核心问题：负样本的局限

在稀疏二元奖励场景下，负样本面临两个根本性问题。首先，负样本往往无法反映失败程度的细微差别——一个答案可能因计算错误、逻辑漏洞或完全偏离而错误，但都被同等对待。其次，解空间的海量组合使得随机采样几个负样本几乎不可能覆盖有意义的奖励信号。

这引发了一个关键思考：是否可以完全摆脱对负样本的依赖？

## POPO的解决方案

研究团队提出的POPO（Positive-Only Policy Optimization）给出了肯定的答案。这是一个全新的RLVR框架，学习完全通过在线正样本rollout进行。具体来说，POPO利用有界重要性采样对正样本集合进行处理，完全不使用任何负样本进行梯度指导。

关键洞见在于：**通过强化正样本概率，隐式负梯度会自然涌现**。当模型通过rollout重分配学习提升正样本概率时，相对地就会降低负样本的概率，从而实现无需显式负样本的优化效果。

## 训练稳定机制

POPO通过两种机制稳定策略优化过程：

**双生策略网络与动量自适应**：采用双生策略网络结构，通过基于动量的自适应法则实现稳定的策略演进，避免训练过程中的剧烈震荡。

**有界相似性惩罚**：用表示空间中的有界相似性惩罚项替代传统的KL散度约束，在保持策略不偏离参考点的同时提供更灵活的优化空间。

## 实验结果与性能表现

研究团队使用公开的主流文本大模型（如Qwen系列）在多个数学基准测试上进行了广泛实验。结果表明：

- POPO在性能上与GRPO相当甚至更优
- 使用Qwen-Math-7B在AIME 2025上达到36.67%，超过GRPO的30.00%
- 消融研究和参数扫描验证了各组件的必要性和鲁棒性

这一成果挑战了RLVR必须依赖正负样本对比的传统认知，为强化学习算法设计提供了新的思路。

## 意义与启示

POPO的成功表明，在特定条件下，正样本中蕴含的信息足以驱动有效的策略优化。这不仅简化了算法实现（无需生成和管理负样本），还可能避免负样本带来的噪声和偏差。对于需要大量采样的大规模RL训练，这一发现具有重要的实践价值。

未来研究可以进一步探索POPO在其他任务类型（如代码生成、科学推理）上的适用性，以及与其他优化技术的结合可能性。