正文

大语言模型On-Policy后训练资源库：从SFT到RLHF的完整技术图谱

本文介绍了一个系统整理大语言模型On-Policy后训练技术的开源资源库，涵盖在线SFT、策略蒸馏、RLHF、RLVR、自我改进、验证器引导学习和基于搜索的训练等核心方法，为研究者和工程师提供一站式学习路径。

大语言模型On-Policy后训练RLHF在线SFT策略蒸馏强化学习奖励模型自我改进验证器引导学习开源资源

发布时间 2026/06/15 02:43最近活动 2026/06/15 02:53预计阅读 3 分钟

章节 01

大语言模型On-Policy后训练资源库：从SFT到RLHF的完整技术图谱（导读）

本文介绍由Masoud Jafaripour维护的开源资源库，系统整理大语言模型On-Policy后训练技术，涵盖在线SFT、策略蒸馏、RLHF、RLVR、自我改进、验证器引导学习和基于搜索的训练等核心方法，为研究者和工程师提供一站式学习路径。资源库位于GitHub（链接：https://github.com/Masoudjafaripour/Awesome-On-Policy-Post-Training-for-LLMs），采用MIT许可证，发布时间为2026年6月14日，持续更新领域最新进展。

章节 02

背景：为什么On-Policy后训练如此重要

大语言模型（LLM）的演进经历从预训练到后训练的关键转变。预训练阶段让模型获得通用语言能力，但后训练阶段才使其具备实用价值并对齐人类偏好。传统监督微调（SFT）依赖静态人工标注数据，难以捕捉人类偏好细微差别，也无法让模型在交互中持续学习。On-Policy后训练方法让模型在与环境或人类交互中实时学习，通过策略梯度优化，使输出更符合期望行为模式。

章节 03

资源库概览：一站式技术导航

该开源资源库系统整理On-Policy后训练领域的核心论文、开源代码、综述文章和基准测试，按技术方法分类，提供清晰学习路径。资源库采用MIT许可证，允许自由使用、修改和分发，助力社区共同进步。

章节 04

核心技术方法解析

1.在线监督微调（Online SFT）

传统SFT用静态数据集，在线SFT动态生成样本并筛选，优势是探索更广泛输出空间，通过自我评估或外部反馈筛选高质量样本，挑战是避免循环强化错误模式。

2.On-Policy策略蒸馏

让student模型在teacher模型指导下主动采样学习最优策略，比离线蒸馏样本效率更高、泛化能力更好。

3.RLHF：从人类反馈中学习

通过训练奖励模型捕捉人类偏好，用PPO等优化LLM输出，成功将主观判断转化为可优化目标，但面临奖励模型过度优化、标注偏见、计算成本高等挑战。

4.RLVR：可验证奖励的强化学习

用自动验证的奖励信号（如代码执行结果、数学答案），在推理任务表现出色，DeepSeek-R1等模型证明其提升推理能力的潜力。

5.自我改进与验证器引导学习

自我改进让模型无外部监督下迭代优化；验证器引导学习引入独立验证组件纠正错误，两者结合在复杂推理任务效果显著。

6.基于搜索的训练方法

结合搜索算法（如MCTS、束搜索）探索更优推理路径，提升准确性和可解释性。

章节 05

实践意义与应用前景

资源库为AI研究者和工程师提供从理论到实践的全链路支持，无论是了解RLHF原理还是寻找代码实现都能找到参考。On-Policy后训练技术重塑LLM能力边界，ChatGPT、Claude、Llama、DeepSeek等先进模型均大量采用，掌握这些方法可构建更智能、可靠、符合人类期望的AI系统。

章节 06

结语与学习建议

On-Policy后训练领域快速发展，新算法层出不穷。该资源库的价值在于持续更新，帮助研究者及时了解最新进展。建议学习路径：从综述文章建立整体认知，再阅读具体方法的原始论文，最后通过开源代码实践验证，实现“综述-论文-代码”三位一体学习。