正文

OPSD：推理模型的后RL压缩阶段——从纠正到精简的范式转变

揭示OPSD在思维链推理中的真实作用机制：它主要是压缩工具而非纠正工具。在数学推理任务上，仅对正确推理轨迹应用OPSD可在保持准确率的同时大幅缩短输出长度，而对错误轨迹应用则会损害性能。

OPSD自蒸馏思维链推理模型模型压缩强化学习后训练数学推理

发布时间 2026/05/07 21:04最近活动 2026/05/08 12:57预计阅读 2 分钟

章节 01

【导读】OPSD在推理模型中的真实角色：压缩工具而非纠正工具

本文揭示OPSD（On-Policy Self-Distillation）在思维链推理中的核心作用——它主要是压缩工具而非纠正工具。在数学推理任务中，仅对正确推理轨迹应用OPSD可保持准确率并大幅缩短输出长度，而对错误轨迹应用则损害性能。基于此，论文提出新的后训练流程：SFT→RLVR→OPSD，让各阶段各司其职以实现高效推理。

章节 02

推理模型后训练的背景与传统路径

大型推理模型（LRMs）通过生成详细思维链（CoT）提升复杂任务表现，但CoT冗长导致token消耗大、延迟高。传统后训练路径有二：1. 强化学习（RLVR）：用可验证奖励训练高效策略，但训练复杂易过度优化；2. 知识蒸馏：依赖教师模型生成轨迹训练学生模型，简单有效但受教师模型限制。OPSD作为折中方案，无需外部教师，通过事后监督从自身经验学习，曾被寄予同时提升准确率和缩短响应的期望。

章节 03

OPSD的工作原理与早期成功场景

OPSD核心是"事后监督"：生成推理轨迹→评估答案正确性→信用分配（识别正确轨迹冗余或错误轨迹关键问题）→训练模型优化选择。它结合RL（从自身经验学习）和蒸馏（细粒度token监督）优点。在"思考禁用"场景（直接生成答案）中，OPSD能提高准确率并消除冗余步骤，展现良好效果。

章节 04

思维链推理中的意外发现

当OPSD应用于"思考启用"的数学推理任务时，准确率提升大幅缩水甚至负增长。假设解释：事后监督在短推理中能有效指定更好token替代，但长思维链中更易识别冗余而非提供更好替代——短推理错误易追溯到关键决策，长推理错误难归因，正确长推理已较优化。

章节 05

实验设计与结果验证

实验分离压缩与纠正效应：将推理轨迹分为正确组和错误组，分别应用OPSD。结果：仅正确OPSD组准确率基本不变、输出显著缩短；仅错误OPSD组准确率下降、输出长度变化小。证明OPSD在CoT推理中主要起压缩作用，无法有效纠正错误轨迹。

章节 06

OPSD难以纠正长推理的深层原因

错误归因困难：长链错误源于多决策累积，难精准定位；2. 正确轨迹优化空间有限：正确长链已自我修正，压缩空间小；3. 替代方案稀缺：长链正确替代路径差异大，token级替换难纠正；4. 压缩更安全：删除冗余风险低，纠正易引入新错误。

章节 07

修订后的后训练流程建议

提出三阶段流程：1. SFT（监督微调）：用高质量数据教会基础推理格式；2. RLVR：通过可验证奖励探索高效策略；3. OPSD压缩：仅对RLVR生成的正确轨迹应用OPSD精简，不纠正错误（由RLVR处理）。分工优势：RLVR负责探索，OPSD负责精简，避免OPSD纠正劣势。

章节 08

研究启示与结论

启示：1. 方法选择需依任务特性；2. 压缩与纠正应分离；3. 多阶段训练更优；4. 事后监督有局限。结论：OPSD是强大压缩工具但非可靠纠正工具，定位为RLVR后的压缩阶段可实现高效推理。实践者应让OPSD专注"更短"，"更好"留给RLVR等工具。

OPSD：推理模型的后RL压缩阶段——从纠正到精简的范式转变

【导读】OPSD在推理模型中的真实角色：压缩工具而非纠正工具

推理模型后训练的背景与传统路径

OPSD的工作原理与早期成功场景

思维链推理中的意外发现

实验设计与结果验证

OPSD难以纠正长推理的深层原因

修订后的后训练流程建议

研究启示与结论

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统