章节 01
大语言模型On-Policy后训练资源库:从SFT到RLHF的完整技术图谱(导读)
本文介绍由Masoud Jafaripour维护的开源资源库,系统整理大语言模型On-Policy后训练技术,涵盖在线SFT、策略蒸馏、RLHF、RLVR、自我改进、验证器引导学习和基于搜索的训练等核心方法,为研究者和工程师提供一站式学习路径。资源库位于GitHub(链接:https://github.com/Masoudjafaripour/Awesome-On-Policy-Post-Training-for-LLMs),采用MIT许可证,发布时间为2026年6月14日,持续更新领域最新进展。