# OPSD：推理模型的后RL压缩阶段——从纠正到精简的范式转变

> 揭示OPSD在思维链推理中的真实作用机制：它主要是压缩工具而非纠正工具。在数学推理任务上，仅对正确推理轨迹应用OPSD可在保持准确率的同时大幅缩短输出长度，而对错误轨迹应用则会损害性能。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-07T13:04:34.000Z
- 最近活动: 2026-05-08T04:57:32.784Z
- 热度: 144.1
- 关键词: OPSD, 自蒸馏, 思维链, 推理模型, 模型压缩, 强化学习, 后训练, 数学推理
- 页面链接: https://www.zingnex.cn/forum/thread/opsd-rl
- Canonical: https://www.zingnex.cn/forum/thread/opsd-rl
- Markdown 来源: ingested_event

---

# OPSD：推理模型的后RL压缩阶段——从纠正到精简的范式转变\n\n## 推理模型后训练的新选择\n\n大型推理模型（Large Reasoning Models, LRMs）如OpenAI的o系列和DeepSeek-R1，通过在推理时生成详细的思维链（Chain-of-Thought, CoT）来解决复杂问题。这种"思考后再回答"的模式显著提升了模型在数学、代码和逻辑推理任务上的表现，但也带来了新的问题：思维链往往冗长，消耗大量token，增加了推理延迟和成本。\n\n如何在保持推理能力的同时缩短思维链，成为后训练阶段的重要研究课题。传统上有两条路径：\n\n**强化学习（RLVR）**：通过可验证奖励（如答案正确性）训练模型，让它学会更高效的推理策略。但RLVR训练复杂，且可能产生过度优化或奖励作弊等问题。\n\n**知识蒸馏（Distillation）**：用强大的教师模型生成高质量推理轨迹，然后用监督学习训练学生模型模仿。这种方法简单有效，但依赖于教师模型的可用性。\n\n最近，On-Policy Self-Distillation（OPSD）作为一种折中方案受到关注。OPSD不需要外部教师模型，而是让模型自己生成推理轨迹，然后通过"事后监督"（hindsight supervision）识别轨迹中的问题并提供改进信号。这种方法承诺同时实现更高的准确率和更短的响应， seemingly 兼得鱼与熊掌。\n\n然而，这篇论文揭示了一个重要发现：OPSD的承诺在"思考型"数学推理任务上并不成立。\n\n## OPSD的工作原理与承诺\n\n要理解论文的发现，我们需要先了解OPSD的工作机制。\n\n### 事后监督的力量\n\nOPSD的核心思想是"事后诸葛亮"——当模型完成一次推理后，我们可以回顾整个过程，识别出哪些token选择是次优的，并告诉模型"如果你当时选择这个token而不是那个token，结果会更好"。\n\n具体来说，OPSD的工作流程是：\n\n1. **生成阶段**：模型生成完整的推理轨迹（思维链+最终答案）\n2. **评估阶段**：检查最终答案是否正确\n3. ** credit assignment**：对于正确的轨迹，找出可以精简而不影响正确性的部分；对于错误的轨迹，找出导致错误的关键决策点\n4. **训练阶段**：用这些事后洞察作为监督信号，训练模型在类似情境下做出更好的选择\n\nOPSD的吸引力在于它结合了RL和蒸馏的优点：像RL一样从模型自己的经验学习（on-policy），像蒸馏一样提供细粒度的token级监督信号。\n\n### 短推理场景的成功\n\n在早期的应用中，OPSD确实展现了令人印象深刻的结果。在"思考禁用"（thinking-disabled）场景——即模型直接生成答案而不经过显式思维链——OPSD能够：\n\n- **提高准确率**：通过事后监督纠正错误的推理路径\n- **缩短输出**：识别并消除冗余的推理步骤\n\n这些成功案例让研究社区对OPSD寄予厚望，认为它可能成为RLVR的有力替代品或补充。\n\n## 思维链推理中的意外发现\n\n然而，当研究者将OPSD应用到"思考启用"（thinking-enabled）的数学推理任务时，情况发生了变化。\n\n### 准确率提升的消失\n\n在需要长思维链的数学推理任务上，OPSD报告的准确率提升大幅缩水，有时甚至变成负增长。这与短推理场景下的成功形成鲜明对比。\n\n论文作者提出了一个关键假设来解释这一现象：\n\n> 事后监督在短推理输出中能够有效指定更好的token级替代方案，但在长思维链中，它更容易识别冗余而非提供更好的替代方案。\n\n这个假设的直觉是：\n\n**短推理场景**：推理路径短，每个决策点的影响直接可见。事后监督可以清楚地指出"如果你在这里选择A而不是B，答案就会正确"。\n\n**长思维链场景**：推理路径长，涉及复杂的逻辑链条。当答案错误时，很难 pinpoint 具体是哪个决策点出了问题；当答案正确时，虽然可以识别某些token是冗余的，但很难构造出"更好的"替代路径——因为正确的长推理往往已经是经过优化的结果。\n\n## 实验设计：分离压缩与纠正\n\n为了验证上述假设，论文设计了一个精巧的实验：将OPSD分别应用于正确和错误的推理轨迹，从而分离出"压缩效应"和"纠正效应"。\n\n### 实验设置\n\n研究团队生成了大量数学推理轨迹，根据最终答案的正确性将它们分为两组：\n\n**正确轨迹组（Correct Rollouts）**：模型已经找到了正确答案的推理路径。\n\n**错误轨迹组（Incorrect Rollouts）**：模型未能找到正确答案的推理路径。\n\n然后，他们对两组分别应用OPSD：\n\n- **仅正确OPSD**：只在正确轨迹上训练，观察模型行为如何变化\n- **仅错误OPSD**：只在错误轨迹上训练，观察模型行为如何变化\n\n这种分离设计的巧妙之处在于：\n\n- 如果OPSD主要起"纠正"作用，那么仅在错误轨迹上训练应该带来准确率提升\n- 如果OPSD主要起"压缩"作用，那么仅在正确轨迹上训练应该缩短输出长度而不损害准确率\n\n### 实验结果\n\n实验结果清晰地支持了论文的核心假设：\n\n**仅正确OPSD**：\n- 准确率基本保持不变（有时略有提升）\n- 输出长度显著缩短\n\n**仅错误OPSD**：\n- 准确率下降\n- 输出长度变化不明显\n\n这些结果表明，在思维链推理中，OPSD主要扮演"压缩器"的角色——它能够识别并消除正确推理路径中的冗余token，但不能有效"纠正"错误推理路径。\n\n## 深层分析：为什么OPSD难以纠正长推理？\n\n论文对这一现象进行了深入分析，提出了几个可能的解释：\n\n### 1. 错误归因的困难\n\n在长思维链中，一个错误答案可能源于多个决策点的累积效应。事后监督虽然知道"这个轨迹错了"，但很难准确归因到具体的token选择。相比之下，短推理中的错误往往可以直接追溯到某个关键决策。\n\n### 2. 正确轨迹的优化空间\n\n长思维链在生成过程中已经经过了一定程度的自我修正和优化。当模型最终找到正确答案时，思维链往往已经相对精简。OPSD能够在此基础上进一步压缩，但改进空间有限。\n\n### 3. 替代方案的稀缺性\n\n事后监督要提供改进信号，需要构造"更好的替代token"。在短推理中，这相对容易——改变一个关键决策就可能改变结果。但在长推理中，正确的替代路径可能与原始路径差异巨大，简单的token级替换难以实现有效的纠正。\n\n### 4. 压缩的"安全性"\n\n压缩操作本质上是"删除冗余"，风险相对较低——只要不删除关键信息，就不会损害正确性。而纠正操作涉及"改变内容"，风险更高——错误的纠正可能引入新的错误。\n\n## 新的后训练流程：SFT → RLVR → OPSD\n\n基于上述发现，论文提出了一个修订后的推理模型后训练流程：\n\n### 阶段一：监督微调（SFT）\n\n首先使用高质量的人类标注或合成数据对基础模型进行监督微调，教会它基本的推理格式和策略。\n\n### 阶段二：强化学习（RLVR）\n\n然后使用RLVR进一步优化模型的推理能力。RLVR通过可验证奖励信号（如答案正确性）探索更高效的推理策略，能够在复杂任务上找到人类可能遗漏的巧妙解法。\n\n### 阶段三：OPSD压缩\n\n最后，对经过RLVR优化的模型应用OPSD，但**仅用于压缩而非纠正**。具体而言：\n\n- 只保留RLVR生成的正确推理轨迹\n- 对这些轨迹应用OPSD进行精简\n- 不尝试用OPSD纠正错误轨迹（这留给RLVR阶段处理）\n\n这种分工的优势在于：\n\n- **RLVR负责探索**：利用其强大的搜索能力发现高效的推理策略\n- **OPSD负责精简**：利用其精细的token级监督压缩成功轨迹\n\n两者各司其职，避免了OPSD在纠正任务上的劣势。\n\n## 对推理模型训练的启示\n\n这项研究对推理模型的后训练实践有几个重要启示：\n\n### 1. 方法选择的任务依赖性\n\n不同的后训练方法在不同任务上表现各异。OPSD在短推理任务上表现良好，但在长思维链任务上更适合作为压缩工具。选择方法时需要考虑任务特性。\n\n### 2. 压缩与纠正的分离\n\n传统上，我们期望后训练方法同时实现"更好"和"更短"。但这项研究表明，这两个目标可能需要不同的技术来实现。压缩和纠正的分离可能是更务实的策略。\n\n### 3. 多阶段训练的价值\n\n单一方法很难在所有维度上同时优化。多阶段训练流程（SFT→RLVR→OPSD）允许每个阶段专注于特定目标，最终组合出整体更优的模型。\n\n### 4. 事后监督的局限性\n\n事后监督虽然强大，但并非万能。它在识别"什么是错的"方面表现良好，但在指导"如何修正"方面能力有限，尤其是在复杂的长推理任务上。\n\n## 局限与未来方向\n\n这项研究虽然重要，但也有其局限：\n\n**任务范围**：实验主要集中在数学推理任务上。OPSD在其他类型任务（如代码生成、逻辑推理、常识推理）上的表现需要进一步验证。\n\n**模型规模**：实验使用的模型规模相对有限。在超大规模模型上，OPSD的行为可能有所不同。\n\n**压缩质量**：论文主要关注压缩是否损害准确率，但没有深入评估压缩后推理的可读性和可解释性。过度压缩可能产生难以理解的"压缩推理"。\n\n**与RLVR的交互**：新的三阶段流程（SFT→RLVR→OPSD）中，RLVR和OPSD的交互机制值得进一步研究。例如，是否可以在RLVR训练过程中间歇性地插入OPSD压缩步骤？\n\n## 结论\n\nOPSD是一项有前景的技术，但我们需要准确理解它的能力和局限。这项研究的重要贡献在于揭示了OPSD在思维链推理中的真实角色：它是一个强大的压缩工具，但不是一个可靠的纠正工具。\n\n这一发现不仅澄清了OPSD的适用场景，也为推理模型的后训练流程设计提供了 practical 的指导。通过将OPSD定位为RLVR之后的压缩阶段，我们可以在保持推理能力的同时实现更高效的推理输出。\n\n对于正在开发或部署推理模型的实践者来说，这一洞见尤为宝贵：不要期望OPSD同时解决"更好"和"更短"两个问题，而是让它专注于"更短"，将"更好"留给更适合的工具。这种务实的分工可能是构建高效推理模型的关键。