Zing 论坛

正文

OPSD:推理模型的后RL压缩阶段——从纠正到精简的范式转变

揭示OPSD在思维链推理中的真实作用机制:它主要是压缩工具而非纠正工具。在数学推理任务上,仅对正确推理轨迹应用OPSD可在保持准确率的同时大幅缩短输出长度,而对错误轨迹应用则会损害性能。

OPSD自蒸馏思维链推理模型模型压缩强化学习后训练数学推理
发布时间 2026/05/07 21:04最近活动 2026/05/08 12:57预计阅读 2 分钟
OPSD:推理模型的后RL压缩阶段——从纠正到精简的范式转变
1

章节 01

【导读】OPSD在推理模型中的真实角色:压缩工具而非纠正工具

本文揭示OPSD(On-Policy Self-Distillation)在思维链推理中的核心作用——它主要是压缩工具而非纠正工具。在数学推理任务中,仅对正确推理轨迹应用OPSD可保持准确率并大幅缩短输出长度,而对错误轨迹应用则损害性能。基于此,论文提出新的后训练流程:SFT→RLVR→OPSD,让各阶段各司其职以实现高效推理。

2

章节 02

推理模型后训练的背景与传统路径

大型推理模型(LRMs)通过生成详细思维链(CoT)提升复杂任务表现,但CoT冗长导致token消耗大、延迟高。传统后训练路径有二:1. 强化学习(RLVR):用可验证奖励训练高效策略,但训练复杂易过度优化;2. 知识蒸馏:依赖教师模型生成轨迹训练学生模型,简单有效但受教师模型限制。OPSD作为折中方案,无需外部教师,通过事后监督从自身经验学习,曾被寄予同时提升准确率和缩短响应的期望。

3

章节 03

OPSD的工作原理与早期成功场景

OPSD核心是"事后监督":生成推理轨迹→评估答案正确性→信用分配(识别正确轨迹冗余或错误轨迹关键问题)→训练模型优化选择。它结合RL(从自身经验学习)和蒸馏(细粒度token监督)优点。在"思考禁用"场景(直接生成答案)中,OPSD能提高准确率并消除冗余步骤,展现良好效果。

4

章节 04

思维链推理中的意外发现

当OPSD应用于"思考启用"的数学推理任务时,准确率提升大幅缩水甚至负增长。假设解释:事后监督在短推理中能有效指定更好token替代,但长思维链中更易识别冗余而非提供更好替代——短推理错误易追溯到关键决策,长推理错误难归因,正确长推理已较优化。

5

章节 05

实验设计与结果验证

实验分离压缩与纠正效应:将推理轨迹分为正确组和错误组,分别应用OPSD。结果:仅正确OPSD组准确率基本不变、输出显著缩短;仅错误OPSD组准确率下降、输出长度变化小。证明OPSD在CoT推理中主要起压缩作用,无法有效纠正错误轨迹。

6

章节 06

OPSD难以纠正长推理的深层原因

  1. 错误归因困难:长链错误源于多决策累积,难精准定位;2. 正确轨迹优化空间有限:正确长链已自我修正,压缩空间小;3. 替代方案稀缺:长链正确替代路径差异大,token级替换难纠正;4. 压缩更安全:删除冗余风险低,纠正易引入新错误。
7

章节 07

修订后的后训练流程建议

提出三阶段流程:1. SFT(监督微调):用高质量数据教会基础推理格式;2. RLVR:通过可验证奖励探索高效策略;3. OPSD压缩:仅对RLVR生成的正确轨迹应用OPSD精简,不纠正错误(由RLVR处理)。分工优势:RLVR负责探索,OPSD负责精简,避免OPSD纠正劣势。

8

章节 08

研究启示与结论

启示:1. 方法选择需依任务特性;2. 压缩与纠正应分离;3. 多阶段训练更优;4. 事后监督有局限。结论:OPSD是强大压缩工具但非可靠纠正工具,定位为RLVR后的压缩阶段可实现高效推理。实践者应让OPSD专注"更短","更好"留给RLVR等工具。