章节 01
导读:SPS——增强大模型推理探索能力的新范式
针对RL训练中单样本性能提升但多样探索受限的问题,提出SPS(Steering Probability Squeezing)训练范式,通过交替使用传统RL和逆强化学习(IRL)重塑轨迹分布,在五个推理基准上提升Pass@k性能,并揭示探索的内在上限。
正文
针对RL训练中单样本性能提升但多样探索受限的问题,提出SPS范式,通过交替使用传统RL和逆强化学习重塑轨迹分布,在五个推理基准上提升Pass@k性能并揭示探索的内在上限。
章节 01
针对RL训练中单样本性能提升但多样探索受限的问题,提出SPS(Steering Probability Squeezing)训练范式,通过交替使用传统RL和逆强化学习(IRL)重塑轨迹分布,在五个推理基准上提升Pass@k性能,并揭示探索的内在上限。
章节 02
强化学习(RL)是训练面向推理的大型语言模型的有前景范式,但存在单样本性能(Pass@1)与多样探索(Pass@k)的张力。传统RL训练往往提升Pass@1,但限制多样推理轨迹的探索,导致概率挤压效应:概率质量过度集中在少数高奖励轨迹,压制真正有潜力的替代路径,缩小探索空间。
章节 03
SPS范式通过交替使用传统RL和逆强化学习(IRL)重塑轨迹分布:
章节 04
在GSM8K(小学数学)、MATH(竞赛级数学)、SVAMP(数学应用题)、StrategyQA(常识推理)、CommonsenseQA(常识问答)五个基准评估显示:SPS一致优于基线方法,提升Pass@k性能,保持Pass@1竞争力,增强解决方案多样性。
章节 05
研究识别出经验性Pass@k上限,揭示基于RL的推理模型探索能力的内在限制,为模型设计提供参考边界。上限成因可能包括策略网络表达能力限制、奖励信号稀疏性、训练数据覆盖范围、优化算法收敛特性。
章节 06
SPS的设计洞见:交替频率需平衡(过频导致不稳定,过疏无法对抗挤压,建议自适应调整);相比其他方法无需额外数据、计算开销可控、理论动机明确。训练建议:监控策略熵变化,检测挤压效应时引入正则化,采用多阶段训练策略交替优化不同目标。
章节 07
当前局限:超参数敏感性(交替频率和IRL强度需仔细调优)、计算开销增加、理论收敛性分析不足。未来方向:开发自适应SPS机制、建立理论保证、扩展到代码生成/科学推理等领域、探索与其他探索技术的协同效果。