Zing 论坛

正文

POPO:仅通过正样本实现大模型推理能力提升的新范式

本文介绍了Positive-Only Policy Optimization (POPO),一种无需负样本即可训练大语言模型推理能力的强化学习新方法,在AIME 2025上超越GRPO达6.67个百分点。

强化学习大语言模型推理能力GRPO正样本优化RLVRQwen数学推理
发布时间 2026/05/08 01:55最近活动 2026/05/08 12:17预计阅读 2 分钟
POPO:仅通过正样本实现大模型推理能力提升的新范式
1

章节 01

【导读】POPO:无需负样本提升大模型推理能力的新范式

本文介绍Positive-Only Policy Optimization (POPO)——一种无需负样本即可训练大语言模型推理能力的强化学习新方法。该方法解决了GRPO中负样本无法反映失败程度梯度的问题,在AIME 2025基准测试上超越GRPO达6.67个百分点,核心在于仅通过正样本优化实现模型推理能力提升。

2

章节 02

背景:从PPO到GRPO的演进与局限

近年来,基于可验证奖励的强化学习(RLVR)成为提升大模型推理能力的主流范式。Group Relative Policy Optimization (GRPO)通过简化优势估计机制在数学推理任务取得进展,但存在根本性问题:负样本可能无法反映失败程度的梯度,在稀疏二元奖励场景下,奖励信号不够丰富,模型难以学习细粒度改进方向。

3

章节 03

POPO核心:完全摒弃负样本的正样本优化

POPO的核心理念是完全通过在线正样本进行策略优化,无需显式使用负样本。其采用有界重要性采样技术,关键洞见在于隐式负梯度可通过正样本概率重新分配自然涌现:强化正样本生成概率时,其他样本(含负样本)相对概率自然下降,等价于隐式梯度惩罚,避免负样本带来的噪声和不稳定性。

4

章节 04

稳定化机制:孪生网络与有界相似性惩罚

为提升训练稳定性,POPO引入两项创新:

  1. 孪生策略网络:两个共享参数的策略网络,主网络快更,孪生网络动量平滑跟进,稳定策略演化;
  2. 有界相似性惩罚:替换KL散度约束,在孪生网络表示空间计算策略分布相似度,更高效且稳定。
5

章节 05

实验证据:POPO全面超越GRPO

在Qwen系列模型上的实验结果显著:

模型 方法 AIME 2025
Qwen-Math-7B GRPO 30.00%
Qwen-Math-7B POPO 36.67%
POPO在AIME 2025上提升6.67个百分点,消融实验证明孪生网络和有界相似性惩罚是必要稳定措施。
6

章节 06

技术意义与未来展望

理论层面:挑战RL领域需显式处理负样本的假设,启发样本效率研究; 实践层面:简化RLVR训练流程,减少50%推理计算开销,避免负样本筛选规则,降低超参数调优空间; 未来展望:扩展到代码生成、逻辑推理等任务,探索与测试时计算扩展结合提升推理深度。

7

章节 07

结语:POPO的价值与影响

POPO是大语言模型后训练领域的重要进展,通过概率分布归一化约束实现无负样本强化学习,保持稳定性同时超越现有方法。不仅提供即插即用的训练改进方案,也为理解RLVR本质机制提供新视角。