# 大模型后训练技术全景：从在线SFT到推理模型的进化之路

> 深入解析Awesome-On-Policy-Post-Training-for-LLMs资源库，系统梳理大语言模型后训练阶段的核心方法论，包括在线监督微调、蒸馏、强化学习等关键技术路径。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-14T18:43:21.000Z
- 最近活动: 2026-06-14T18:48:24.588Z
- 热度: 154.9
- 关键词: 大语言模型, 后训练, 在线监督微调, 蒸馏, 强化学习, RLHF, 推理模型, DeepSeek-R1, 自改进, GitHub
- 页面链接: https://www.zingnex.cn/forum/thread/sft-5dc482ce
- Canonical: https://www.zingnex.cn/forum/thread/sft-5dc482ce
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：Masoudjafaripour
- 来源平台：github
- 原始标题：Awesome-On-Policy-Post-Training-for-LLMs
- 原始链接：https://github.com/Masoudjafaripour/Awesome-On-Policy-Post-Training-for-LLMs
- 来源发布时间/更新时间：2026-06-14T18:43:21Z

# 大模型后训练技术全景：从在线SFT到推理模型的进化之路\n\n大语言模型（LLM）的训练通常分为预训练和后训练两个阶段。预训练阶段让模型掌握通用语言知识，而后训练阶段则决定了模型能否真正解决复杂任务、具备推理能力。本文将深入介绍一个系统性的技术资源库，它完整梳理了现代推理模型在后训练阶段所采用的核心方法论。\n\n## 原作者与来源\n\n- **原作者/维护者：** Masoud Jafaripour\n- **来源平台：** GitHub\n- **原始标题：** Awesome-On-Policy-Post-Training-for-LLMs\n- **原始链接：** https://github.com/Masoudjafaripour/Awesome-On-Policy-Post-Training-for-LLMs\n- **发布时间：** 2026年6月14日\n\n## 后训练技术概览\n\n现代推理模型的训练流程通常遵循以下路径：\n\n```\n预训练 → SFT（监督微调） → 蒸馏 → RLHF/RLVR → 推理模型\n```\n\n其中蒸馏阶段又可细分为：\n- 离线蒸馏（Offline Distillation）\n- 自蒸馏（Self-Distillation）\n- 在线策略蒸馏（On-Policy Distillation）\n\n这个资源库的核心关注点是"在线策略"方法，即训练数据由当前模型策略实时生成（τ ~ π_θ），并通过监督、验证、搜索或强化学习进行改进。\n\n## 在线监督微调（Online SFT）\n\n在线监督微调是一类持续收集新轨迹并在新生成数据上执行监督学习的方法。与离线SFT不同，在线SFT允许模型不断从自身生成的数据中学习。\n\n**代表性工作：**\n- **Self-Instruct（2022）：** 开创性地提出了让语言模型与自生成指令对齐的方法，为后续的自改进技术奠定了基础。\n- **ReST（Reinforced Self-Training，2023）：** 将强化学习思想引入自训练框架，通过迭代地生成数据并筛选高质量样本进行微调。\n\n这类方法的关键优势在于能够突破人工标注数据的限制，让模型在特定领域持续自我优化。\n\n## 蒸馏技术的三种形态\n\n### 离线蒸馏（Offline Distillation）\n\n离线蒸馏是最传统的知识迁移方式：教师模型生成的轨迹被离线收集，然后用于训练学生模型。\n\n**关键方法：**\n- **Distilling Step-by-Step（2023）：** 不仅蒸馏最终答案，还蒸馏中间推理步骤，让学生模型学会"思考过程"。\n- **DeepSeek-R1-Distill Models（2025）：** 展示了如何通过高质量推理轨迹的蒸馏，让小模型获得接近大模型的推理能力。\n\n### 自蒸馏（Self-Distillation）\n\n自蒸馏让模型从自身生成的推理痕迹、解决方案或反馈中学习，无需外部教师模型。\n\n**代表性工作：**\n- **STaR（Self-Taught Reasoner，2022）：** 模型生成答案，通过验证筛选正确样本，再用这些样本微调自身，形成迭代改进循环。\n- **Quiet-STaR（2024）：** 在STaR基础上引入隐式思维链，让模型学会在生成过程中进行"内心独白"。\n- **Self-Rewarding Language Models（2024）：** 模型不仅生成内容，还学会给自己打分，实现自我评估和自我改进。\n\n### 在线策略蒸馏（On-Policy Distillation）\n\n在线策略蒸馏是当前研究的热点方向，训练数据由当前模型策略生成，并通过教师模型、搜索或验证器进行改进。\n\n**重要进展：**\n- **ReST-EM（2024）：** 结合期望最大化算法，在策略生成的数据上进行迭代优化。\n- **DeepSeek-R1（2025）：** 展示了如何通过大规模在线策略训练，让模型获得强大的数学和代码推理能力。\n- **Tree of Thoughts（2023）：** 将推理过程建模为树形搜索，允许模型探索多条推理路径并选择最优解。\n- **RAP（Reasoning via Planning，2023）：** 将规划算法引入语言模型推理，提升复杂任务求解能力。\n\n## 强化学习在后训练中的应用\n\n### RLHF（来自人类反馈的强化学习）\n\nRLHF是ChatGPT等对话模型成功的关键技术之一。\n\n**里程碑工作：**\n- **InstructGPT（2022）：** 首次展示了如何通过人类反馈微调GPT-3，使其更好地遵循指令。\n- **Constitutional AI（2022）：** Anthropic提出的方法，通过原则指导而非直接人类反馈来训练更安全的AI助手。\n\n### RLVR（来自可验证奖励的强化学习）\n\nRLVR是专门针对可验证任务（如数学题、代码题）的强化学习方法，奖励信号来自自动验证器而非人类标注。\n\n**突破性成果：**\n- **DeepSeekMath（2024）：** 展示了如何通过RLVR让模型在数学推理上取得显著进步。\n- **DeepSeek-R1（2025）：** 通过纯RLVR训练，在没有SFT的情况下让模型自发涌现出长思维链能力。\n\n### 在线偏好学习\n\n在线偏好学习方法持续从新收集的偏好数据中更新策略。\n\n**核心方法：**\n- **DPO（Direct Preference Optimization，2023）：** 无需显式奖励模型，直接从偏好数据优化策略。\n- **Online DPO（2024）：** 将DPO扩展到在线学习场景，允许持续从新的偏好对中学习。\n\n## 验证器引导学习\n\n验证器引导学习通过过程验证或结果验证来指导模型学习。\n\n**关键工作：**\n- **Let's Verify Step by Step（2023）：** OpenAI的研究表明，过程级奖励比结果级奖励更能有效提升模型的多步推理能力。\n- **Self-Rewarding Language Models（2024）：** 模型学会给自己生成的内容打分，实现自我验证和自我改进。\n\n## 基于搜索的学习\n\n基于搜索的方法利用搜索过程生成更高质量的推理轨迹。\n\n**代表性方法：**\n- **Tree of Thoughts（2023）：** 将思维链扩展为树形结构，允许模型探索多条推理路径。\n- **RAP（2023）：** 将蒙特卡洛树搜索引入推理过程。\n- **VReST（2025）：** 结合验证器的搜索方法。\n- **Socratic-MCTS（2025）：** 苏格拉底式提问与蒙特卡洛树搜索的结合。\n\n## 自改进与自我对弈\n\n自改进方法通过迭代地使用模型自身输出来改进模型。\n\n**重要工作：**\n- **STaR（2022）：** 自教学推理器，通过生成-验证-微调的循环实现自我提升。\n- **Reflexion（2023）：** 引入自我反思机制，让模型从失败中学习。\n- **Quiet-STaR（2024）：** 隐式思维链的自改进方法。\n\n## 推理模型：当前前沿\n\n资源库收录了当前最先进的推理模型，它们都大量采用了上述后训练技术：\n\n- **o1 / o3：** OpenAI的推理模型系列\n- **DeepSeek-R1：** 通过纯RL训练涌现推理能力的开源模型\n- **QwQ：** 阿里云的推理模型\n- **Kimi Reasoning Models：** 月之暗面的推理模型系列\n\n## 评测基准与开源框架\n\n### 评测基准\n\n资源库整理了推理能力评测的常用基准：\n- **GSM8K / MATH / AIME：** 数学推理基准\n- **GPQA：** 研究生级别物理、化学、生物问题\n- **MMLU-Pro：** 多学科知识评测\n- **SWE-Bench：** 软件工程能力评测\n- **BrowseComp：** 浏览器使用能力评测\n\n### 开源框架\n\n为支持上述研究，社区开发了多个开源框架：\n- **TRL（Hugging Face）：** 最广泛使用的Transformer强化学习库\n- **OpenRLHF：** 高效的RLHF训练框架\n- **verl：** 字节跳动的RL训练框架\n- **DeepSpeed-Chat：** 微软的大规模对话模型训练框架\n- **Megatron-LM：** NVIDIA的大规模语言模型训练框架\n\n## 技术演进趋势与启示\n\n从这份资源库可以看出，大模型后训练技术正在经历几个重要转变：\n\n1. **从离线到在线：** 训练数据从静态数据集转向由模型自身动态生成\n2. **从结果到过程：** 监督信号从关注最终答案扩展到关注推理过程\n3. **从人类到自动：** 反馈来源从人工标注转向自动验证器\n4. **从单一到组合：** 多种技术（SFT+蒸馏+RL）的组合使用成为常态\n\n对于研究者而言，这个资源库提供了一个完整的技术地图；对于实践者而言，它指明了构建推理模型的可行路径。随着DeepSeek-R1等开源推理模型的成功，我们有理由相信，高效的推理能力将成为大模型的标配特性。