# POPO：仅通过正样本实现大模型推理能力提升的新范式

> 本文介绍了Positive-Only Policy Optimization (POPO)，一种无需负样本即可训练大语言模型推理能力的强化学习新方法，在AIME 2025上超越GRPO达6.67个百分点。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-07T17:55:21.000Z
- 最近活动: 2026-05-08T04:17:34.225Z
- 热度: 140.6
- 关键词: 强化学习, 大语言模型, 推理能力, GRPO, 正样本优化, RLVR, Qwen, 数学推理
- 页面链接: https://www.zingnex.cn/forum/thread/popo
- Canonical: https://www.zingnex.cn/forum/thread/popo
- Markdown 来源: ingested_event

---

# POPO：仅通过正样本实现大模型推理能力提升的新范式\n\n## 背景：从PPO到GRPO的演进\n\n近年来，基于可验证奖励的强化学习（RLVR）已成为提升大语言模型推理能力的主流范式。与传统的Proximal Policy Optimization (PPO)相比，Group Relative Policy Optimization (GRPO)通过简化优势估计机制，在数学推理任务上取得了显著进展。GRPO的核心思想是将模型生成的多个回答分组，通过组内正负样本的相对表现来估计优势值。\n\n然而，GRPO方法存在一个根本性问题：**负样本可能无法反映失败程度的梯度**。在稀疏二元奖励场景下（答案正确得1分，错误得0分），简单惩罚少数采样到的负样本难以覆盖庞大的错误空间，导致奖励信号不够丰富，模型难以学习到细粒度的改进方向。\n\n## POPO核心思想：完全摒弃负样本\n\n针对上述问题，研究者提出了**Positive-Only Policy Optimization (POPO)**，一种全新的RLVR框架。POPO的核心理念令人惊讶：**学习可以完全通过在线正样本进行，无需显式使用任何负样本**。\n\nPOPO采用**有界重要性采样**技术，仅在正样本集合上进行策略优化。这一设计看似违背了强化学习的直觉——毕竟传统RL算法通常需要正负样本对比才能确定梯度方向。但POPO的关键洞见在于：**隐式负梯度可以通过正样本概率的重新分配自然涌现**。\n\n具体来说，当模型强化正样本的生成概率时，由于概率分布的归一化约束，其他样本（包括负样本）的相对概率会自然下降。这种\"此消彼长\"的效应，实际上等价于对负样本施加了隐式的梯度惩罚，但避免了直接处理负样本带来的噪声和不稳定性。\n\n## 稳定化机制：孪生网络与有界相似性惩罚\n\n为了进一步提升训练稳定性，POPO引入了两项关键创新：\n\n### 1. 孪生策略网络（Siamese Policy Network）\n\nPOPO使用两个共享参数的策略网络，分别处理不同批次的数据。通过动量自适应更新规则，主网络以较快的学习率更新，而孪生网络则以动量方式平滑跟进。这种设计类似于对比学习中的动量编码器，能够有效稳定策略的演化过程，避免训练过程中的剧烈震荡。\n\n### 2. 有界相似性惩罚\n\n传统RL方法通常使用KL散度来约束策略更新幅度，防止模型偏离太远。但KL散度在极端情况下可能产生数值不稳定。POPO将其替换为**有界相似性惩罚项**，在孪生网络的表示空间中计算策略分布的相似度。这一替代方案不仅计算更高效，而且提供了更稳定的梯度信号。\n\n## 实验结果：全面超越GRPO\n\n研究团队在Qwen系列模型上进行了广泛实验，覆盖从基础数学到竞赛级别的多个基准测试。结果令人印象深刻：\n\n| 模型 | 方法 | AIME 2025 |
|------|------|-----------|
| Qwen-Math-7B | GRPO | 30.00% |
| Qwen-Math-7B | POPO | **36.67%** |
\n在AIME 2025这一高难度数学竞赛基准上，POPO相比GRPO提升了**6.67个百分点**，这是一个显著的改进。更重要的是，这一提升是在不依赖负样本的情况下实现的，验证了\"正样本 alone\"策略的可行性。\n\n消融实验进一步证明了POPO各组件的必要性。移除孪生网络或有界相似性惩罚都会导致性能下降，说明这些设计并非冗余，而是针对正样本训练场景的必要稳定措施。\n\n## 技术意义与未来展望\n\nPOPO的提出具有重要的理论和实践意义：\n\n**理论层面**，POPO挑战了RL领域长期以来的一个隐含假设——即有效的策略学习必须显式处理负样本。这一洞见可能启发研究者重新审视其他RL算法的样本效率问题。\n\n**实践层面**，POPO简化了RLVR的训练流程。无需生成和筛选负样本意味着：\n- 减少约50%的推理计算开销\n- 避免负样本质量筛选的复杂启发式规则\n- 降低超参数调优的搜索空间\n\n展望未来，POPO框架有望扩展到更广泛的推理任务，包括代码生成、逻辑推理和科学问题求解。研究者还计划探索将POPO与测试时计算扩展（Test-Time Scaling）相结合，进一步提升模型的推理深度。\n\n## 结语\n\nPositive-Only Policy Optimization代表了大语言模型后训练领域的一个重要进展。通过巧妙地利用概率分布的归一化约束，POPO实现了\"无负样本\"的强化学习，在保持训练稳定性的同时取得了超越现有方法的性能。这一工作不仅提供了即插即用的训练改进方案，更为理解RLVR的本质机制提供了新的视角。
