正文

POPO：仅通过正样本实现大模型推理能力提升的新范式

本文介绍了Positive-Only Policy Optimization (POPO)，一种无需负样本即可训练大语言模型推理能力的强化学习新方法，在AIME 2025上超越GRPO达6.67个百分点。

强化学习大语言模型推理能力GRPO正样本优化RLVRQwen数学推理

发布时间 2026/05/08 01:55最近活动 2026/05/08 12:17预计阅读 2 分钟

章节 01

【导读】POPO：无需负样本提升大模型推理能力的新范式

本文介绍Positive-Only Policy Optimization (POPO)——一种无需负样本即可训练大语言模型推理能力的强化学习新方法。该方法解决了GRPO中负样本无法反映失败程度梯度的问题，在AIME 2025基准测试上超越GRPO达6.67个百分点，核心在于仅通过正样本优化实现模型推理能力提升。

章节 02

背景：从PPO到GRPO的演进与局限

近年来，基于可验证奖励的强化学习（RLVR）成为提升大模型推理能力的主流范式。Group Relative Policy Optimization (GRPO)通过简化优势估计机制在数学推理任务取得进展，但存在根本性问题：负样本可能无法反映失败程度的梯度，在稀疏二元奖励场景下，奖励信号不够丰富，模型难以学习细粒度改进方向。

章节 03

POPO核心：完全摒弃负样本的正样本优化

POPO的核心理念是完全通过在线正样本进行策略优化，无需显式使用负样本。其采用有界重要性采样技术，关键洞见在于隐式负梯度可通过正样本概率重新分配自然涌现：强化正样本生成概率时，其他样本（含负样本）相对概率自然下降，等价于隐式梯度惩罚，避免负样本带来的噪声和不稳定性。

章节 04

稳定化机制：孪生网络与有界相似性惩罚

为提升训练稳定性，POPO引入两项创新：

孪生策略网络：两个共享参数的策略网络，主网络快更，孪生网络动量平滑跟进，稳定策略演化；
有界相似性惩罚：替换KL散度约束，在孪生网络表示空间计算策略分布相似度，更高效且稳定。

章节 05

实验证据：POPO全面超越GRPO

在Qwen系列模型上的实验结果显著：

模型	方法	AIME 2025
Qwen-Math-7B	GRPO	30.00%
Qwen-Math-7B	POPO	36.67%
POPO在AIME 2025上提升6.67个百分点，消融实验证明孪生网络和有界相似性惩罚是必要稳定措施。