# 大语言模型On-Policy后训练资源库：从SFT到RLHF的完整技术图谱

> 本文介绍了一个系统整理大语言模型On-Policy后训练技术的开源资源库，涵盖在线SFT、策略蒸馏、RLHF、RLVR、自我改进、验证器引导学习和基于搜索的训练等核心方法，为研究者和工程师提供一站式学习路径。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-14T18:43:21.000Z
- 最近活动: 2026-06-14T18:53:01.864Z
- 热度: 145.8
- 关键词: 大语言模型, On-Policy后训练, RLHF, 在线SFT, 策略蒸馏, 强化学习, 奖励模型, 自我改进, 验证器引导学习, 开源资源
- 页面链接: https://www.zingnex.cn/forum/thread/on-policy-sftrlhf
- Canonical: https://www.zingnex.cn/forum/thread/on-policy-sftrlhf
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：Masoudjafaripour
- 来源平台：github
- 原始标题：Awesome-On-Policy-Post-Training-for-LLMs
- 原始链接：https://github.com/Masoudjafaripour/Awesome-On-Policy-Post-Training-for-LLMs
- 来源发布时间/更新时间：2026-06-14T18:43:21Z

# 大语言模型On-Policy后训练资源库：从SFT到RLHF的完整技术图谱\n\n## 原作者与来源\n\n- **原作者/维护者**: Masoud Jafaripour\n- **来源平台**: GitHub\n- **原始标题**: Awesome-On-Policy-Post-Training-for-LLMs\n- **原始链接**: https://github.com/Masoudjafaripour/Awesome-On-Policy-Post-Training-for-LLMs\n- **发布时间**: 2026年6月14日\n\n## 背景：为什么On-Policy后训练如此重要\n\n大语言模型（LLM）的演进经历了从预训练到后训练的关键转变。预训练阶段让模型获得通用的语言理解和生成能力，但真正让模型具备实用价值、对齐人类偏好的，是后训练阶段的技术打磨。\n\n传统的监督微调（SFT）虽然有效，但存在明显的局限性：它依赖于静态的人工标注数据，难以捕捉人类偏好的细微差别，也无法让模型在交互中持续学习。On-Policy后训练方法应运而生——它让模型在与环境或人类的交互中实时学习，通过策略梯度优化，使模型输出更符合期望的行为模式。\n\n## 资源库概览：一站式技术导航\n\n这个由Masoud Jafaripour维护的开源资源库，系统地整理了On-Policy后训练领域的核心论文、开源代码、综述文章和基准测试。与其他零散的资源列表不同，该库按照技术方法进行分类，为研究者和工程师提供了清晰的学习路径。\n\n资源库采用MIT许可证，意味着任何人都可以自由使用、修改和分发这些整理成果。这种开放的姿态有助于整个社区的共同进步。\n\n## 核心技术方法解析\n\n### 1. 在线监督微调（Online SFT）\n\n传统的SFT使用预先收集的静态数据集，而在线SFT则允许模型在训练过程中动态生成样本并进行筛选。这种方法的核心优势在于：模型可以探索更广泛的输出空间，并通过自我评估或外部反馈来筛选高质量的训练样本。\n\n在线SFT的关键挑战在于如何设计有效的样本过滤机制，避免模型在自我生成的数据中陷入循环强化错误模式。资源库中收录了多种在线SFT的变体方法，包括基于置信度阈值过滤、基于奖励模型排序等策略。\n\n### 2. On-Policy策略蒸馏\n\n策略蒸馏（Distillation）最初用于将大模型的知识迁移到小模型，但On-Policy策略蒸馏更进一步——它让 student 模型在 teacher 模型的指导下，通过主动采样来学习最优策略。\n\n这种方法与传统的离线蒸馏相比，具有更高的样本效率和更好的泛化能力。Student模型不再被动接受 teacher 的软标签，而是在交互中学会"为什么"某些输出更优。资源库详细整理了该领域的代表性工作，包括不同蒸馏温度设置、损失函数设计等关键实现细节。\n\n### 3. RLHF：从人类反馈中学习\n\n基于人类反馈的强化学习（RLHF）是近年来最具影响力的后训练技术之一。它通过训练奖励模型来捕捉人类偏好，然后使用PPO等策略梯度算法优化LLM的输出。\n\nRLHF的成功在于它将人类的主观判断转化为可优化的目标函数。然而，RLHF也面临诸多挑战：奖励模型的过度优化可能导致模式崩溃，人类标注者的偏好差异可能引入偏见，以及训练过程的计算成本高昂。资源库收录了RLHF的最新进展，包括缓解奖励黑客攻击的方法、提高样本效率的技术等。\n\n### 4. RLVR：可验证奖励的强化学习\n\nRLVR（Reinforcement Learning with Verifiable Rewards）是RLHF的重要补充。与依赖人类偏好的奖励模型不同，RLVR使用可自动验证的奖励信号，如代码执行结果、数学问题正确答案等。\n\n这种方法在推理任务上表现出色，因为答案的正确性可以被客观检验。DeepSeek-R1等模型的成功证明了RLVR在提升模型推理能力方面的巨大潜力。资源库整理了RLVR在数学推理、代码生成、逻辑谜题等领域的应用案例。\n\n### 5. 自我改进与验证器引导学习\n\n自我改进（Self-Improvement）让模型在没有外部监督的情况下，通过自我博弈和迭代优化来提升性能。验证器引导学习（Verifier-Guided Learning）则引入一个独立的验证组件，帮助模型识别和纠正错误。\n\n这两种方法的结合产生了强大的协同效应：模型生成候选答案，验证器评估答案质量，模型根据验证信号进行策略更新。这种架构类似于AlphaGo中的策略网络和价值网络，已经在复杂推理任务中展现出惊人的效果。\n\n### 6. 基于搜索的训练方法\n\n将搜索算法与语言模型训练相结合，是On-Policy后训练的另一个前沿方向。蒙特卡洛树搜索（MCTS）、束搜索（Beam Search）等技术被用于在解码阶段探索更优的推理路径。\n\n基于搜索的训练不仅提升了模型的推理准确性，还增强了其可解释性——通过分析搜索树，我们可以理解模型是如何一步步得出结论的。资源库涵盖了该领域的经典论文和开源实现。\n\n## 实践意义与应用前景\n\n对于AI研究者和工程师而言，这个资源库提供了从理论到实践的全链路支持。无论是想深入了解RLHF的数学原理，还是寻找特定任务的代码实现，都能在这里找到有价值的参考。\n\nOn-Policy后训练技术正在重塑LLM的能力边界。从ChatGPT到Claude，从开源的Llama到DeepSeek，这些先进的对话模型都大量采用了上述技术。掌握这些方法，意味着能够构建更智能、更可靠、更符合人类期望的AI系统。\n\n## 结语：持续演进的技术生态\n\nOn-Policy后训练是一个快速发展的领域，新的算法和技巧层出不穷。这个Awesome资源库的价值不仅在于它当前的整理成果，更在于其持续的更新维护。通过跟踪该库，研究者和开发者可以及时了解领域内的最新进展，避免重复造轮子，站在前人的肩膀上推动技术边界。\n\n对于希望深入LLM后训练技术的读者，建议从资源库中的综述文章入手，建立整体认知框架，然后针对感兴趣的具体方法阅读原始论文，最后通过开源代码进行实践验证。这种"综述-论文-代码"三位一体的学习路径，将帮助你在这个激动人心的领域快速成长。