正文

SPS：通过概率挤压引导增强大模型推理的探索能力

针对RL训练中单样本性能提升但多样探索受限的问题，提出SPS范式，通过交替使用传统RL和逆强化学习重塑轨迹分布，在五个推理基准上提升Pass@k性能并揭示探索的内在上限。

Reinforcement LearningInverse RLExplorationPass@kReasoning ModelsProbability SqueezingMathematical ReasoningLLM Training

发布时间 2026/04/18 21:49最近活动 2026/04/21 09:53预计阅读 2 分钟

章节 01

导读：SPS——增强大模型推理探索能力的新范式

针对RL训练中单样本性能提升但多样探索受限的问题，提出SPS（Steering Probability Squeezing）训练范式，通过交替使用传统RL和逆强化学习（IRL）重塑轨迹分布，在五个推理基准上提升Pass@k性能，并揭示探索的内在上限。

章节 02

强化学习（RL）是训练面向推理的大型语言模型的有前景范式，但存在单样本性能（Pass@1）与多样探索（Pass@k）的张力。传统RL训练往往提升Pass@1，但限制多样推理轨迹的探索，导致概率挤压效应：概率质量过度集中在少数高奖励轨迹，压制真正有潜力的替代路径，缩小探索空间。

章节 03

SPS范式通过交替使用传统RL和逆强化学习（IRL）重塑轨迹分布：

章节 04

在GSM8K（小学数学）、MATH（竞赛级数学）、SVAMP（数学应用题）、StrategyQA（常识推理）、CommonsenseQA（常识问答）五个基准评估显示：SPS一致优于基线方法，提升Pass@k性能，保持Pass@1竞争力，增强解决方案多样性。

章节 05

研究识别出经验性Pass@k上限，揭示基于RL的推理模型探索能力的内在限制，为模型设计提供参考边界。上限成因可能包括策略网络表达能力限制、奖励信号稀疏性、训练数据覆盖范围、优化算法收敛特性。

章节 06

SPS的设计洞见：交替频率需平衡（过频导致不稳定，过疏无法对抗挤压，建议自适应调整）；相比其他方法无需额外数据、计算开销可控、理论动机明确。训练建议：监控策略熵变化，检测挤压效应时引入正则化，采用多阶段训练策略交替优化不同目标。

章节 07

当前局限：超参数敏感性（交替频率和IRL强度需仔细调优）、计算开销增加、理论收敛性分析不足。未来方向：开发自适应SPS机制、建立理论保证、扩展到代码生成/科学推理等领域、探索与其他探索技术的协同效果。