# SPS：通过概率挤压引导增强大模型推理的探索能力

> 针对RL训练中单样本性能提升但多样探索受限的问题，提出SPS范式，通过交替使用传统RL和逆强化学习重塑轨迹分布，在五个推理基准上提升Pass@k性能并揭示探索的内在上限。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-18T13:49:47.000Z
- 最近活动: 2026-04-21T01:53:43.740Z
- 热度: 90.9
- 关键词: Reinforcement Learning, Inverse RL, Exploration, Pass@k, Reasoning Models, Probability Squeezing, Mathematical Reasoning, LLM Training
- 页面链接: https://www.zingnex.cn/forum/thread/sps
- Canonical: https://www.zingnex.cn/forum/thread/sps
- Markdown 来源: ingested_event

---

# SPS：通过概率挤压引导增强大模型推理的探索能力\n\n## 背景：RL训练中的探索困境\n\n强化学习（RL）已成为训练面向推理的大型语言模型的有前景范式，它利用基于规则的奖励信号（如数学答案的正确性、代码的执行结果）来指导模型学习。然而，RL训练存在一个根本性的张力：\n\n- **单样本性能（Pass@1）**：模型在单次尝试中给出正确答案的概率\n- **多样探索（Pass@k）**：从k个采样中至少有一个正确的概率\n\n传统RL训练往往能够显著提升Pass@1，但在**多样推理轨迹的探索**方面表现有限，而这对于多采样性能（Pass@k）至关重要。\n\n## 核心发现：概率挤压效应\n\n### 什么是概率挤压？\n\n研究团队的初步分析揭示了一个根本性的**挤压效应（Squeezing Effect）**：\n\n在RL训练过程中，概率质量会过度集中在**少数高奖励轨迹**上，形成尖锐的分布峰值。这导致：\n\n- 模型倾向于反复采样相似的"安全"解决方案\n- 真正有潜力的替代路径被压制\n- 探索空间被人为缩小\n\n### 挤压效应的数学直觉\n\n从策略梯度的角度理解，RL通过提升高奖励轨迹的概率来优化策略。当某些轨迹获得高奖励时，它们的概率会被不断放大。如果没有适当的正则化，这种放大过程会导致：\n\n- 熵的迅速下降\n- 策略分布的急剧收缩\n- 探索能力的丧失\n\n## SPS：引导概率挤压的训练范式\n\n### 核心思想：RL与IRL的交替\n\n**Steering Probability Squeezing (SPS)**提出了一种创新的训练范式，通过**交替使用传统RL和逆强化学习（Inverse Reinforcement Learning, IRL）**来重塑轨迹分布：\n\n1. **RL阶段**：利用可验证奖励优化策略，提升高价值轨迹的概率\n2. **IRL阶段**：将当前策略的采样作为"演示"，通过IRL显式地重塑诱导的轨迹分布\n3. **交替迭代**：在两个阶段之间切换，实现探索与利用的动态平衡\n\n### IRL的独特作用\n\n逆强化学习在SPS中扮演着关键角色：\n\n- **无需外部监督**：IRL从策略自身的采样中学习，不依赖额外的标注数据\n- **分布重塑**：通过估计奖励函数，IRL能够识别并提升被低估的轨迹\n- **探索增强**：IRL鼓励策略覆盖更广泛的轨迹空间，对抗挤压效应\n\n## 实验验证：五个推理基准\n\n### 实验设置\n\n研究团队在五个常用的推理基准上评估了SPS：\n\n1. **GSM8K**：小学数学问题\n2. **MATH**：竞赛级数学问题\n3. **SVAMP**：数学应用题\n4. **StrategyQA**：常识推理\n5. **CommonsenseQA**：常识问答\n\n### 主要结果\n\n实验表明，SPS能够：\n\n- **提升Pass@k性能**：在多采样设置下，SPS一致性地优于基线方法\n- **保持Pass@1竞争力**：单样本性能没有显著下降\n- **增强探索能力**：模型能够生成更多样化的解决方案\n\n## 深入分析：探索的内在上限\n\n### 经验性Pass@k上限\n\n研究团队通过分析RL学习动态，识别出了一个**经验性的Pass@k上限**。这一发现具有重要意义：\n\n- **理论洞察**：揭示了基于RL的推理模型在探索能力上的内在限制\n- **实践指导**：为模型设计和训练策略提供了参考边界\n- **未来方向**：指出了突破当前限制的可能路径\n\n### 上限的成因分析\n\n这一上限可能源于：\n\n- **策略网络的表达能力限制**\n- **奖励信号的稀疏性**\n- **训练数据的覆盖范围**\n- **优化算法的收敛特性**\n\n## SPS的设计洞见\n\n### 交替频率的选择\n\nSPS中RL与IRL的交替频率是一个关键超参数：\n\n- **过于频繁的切换**：可能导致训练不稳定\n- **过于稀疏的切换**：可能无法有效对抗挤压效应\n- **自适应策略**：根据训练进度动态调整切换频率\n\n### 与现有方法的比较\n\n相比其他探索增强方法，SPS的优势在于：\n\n- **无需额外数据**：完全依赖策略自身的采样\n- **计算开销可控**：IRL阶段可以与RL共享大部分计算资源\n- **理论动机明确**：基于对挤压效应的深入理解\n\n## 对推理模型训练的启示\n\n### 重新思考探索-利用权衡\n\nSPS的研究提醒我们，在推理模型训练中：\n\n- **探索不仅仅是噪声**：有结构的探索对性能至关重要\n- **分布形状很重要**：平坦的分布可能比尖锐的峰值更有价值\n- **多目标优化**：同时关注Pass@1和Pass@k\n\n### 训练策略的建议\n\n基于SPS的发现，研究者建议：\n\n- 监控训练过程中的策略熵变化\n- 在检测到挤压效应时引入正则化\n- 考虑多阶段训练策略，交替优化不同目标\n\n## 局限与未来方向\n\n### 当前局限\n\n- **超参数敏感性**：交替频率和IRL强度需要仔细调优\n- **计算开销**：IRL阶段增加了额外的训练成本\n- **理论理解**：对SPS收敛性质的深入分析仍有待完善\n\n### 未来研究方向\n\n1. **自适应SPS**：开发自动检测挤压效应并调整训练策略的机制\n2. **理论分析**：建立SPS收敛性和最优性的理论保证\n3. **扩展应用**：将SPS应用于代码生成、科学推理等其他领域\n4. **组合方法**：探索SPS与其他探索增强技术的协同效果\n\n## 结语\n\nSPS通过揭示和应对概率挤压效应，为增强推理模型的探索能力提供了一个创新的训练范式。通过交替使用RL和IRL，SPS不仅提升了多采样性能，还深化了我们对RL训练动态的理解。在推理模型日益重要的今天，SPS代表了一个重要的技术进步，为构建更强大、更多样化的AI推理系统铺平了道路。
