Zing 论坛

正文

大模型后训练技术全景:从在线SFT到推理模型的进化之路

深入解析Awesome-On-Policy-Post-Training-for-LLMs资源库,系统梳理大语言模型后训练阶段的核心方法论,包括在线监督微调、蒸馏、强化学习等关键技术路径。

大语言模型后训练在线监督微调蒸馏强化学习RLHF推理模型DeepSeek-R1自改进GitHub
发布时间 2026/06/15 02:43最近活动 2026/06/15 02:48预计阅读 3 分钟
大模型后训练技术全景:从在线SFT到推理模型的进化之路
1

章节 01

【导读】大模型后训练技术全景:核心方法论与资源库解析

本文深入解析Awesome-On-Policy-Post-Training-for-LLMs资源库,系统梳理大语言模型后训练阶段的核心方法论,包括在线监督微调、蒸馏、强化学习等关键技术路径,揭示从在线SFT到推理模型的进化之路。后训练阶段决定模型能否解决复杂任务、具备推理能力,该资源库聚焦"在线策略"方法,为研究者和实践者提供完整技术地图。

3

章节 03

方法(一):在线监督微调与蒸馏技术

在线监督微调(Online SFT):持续收集自身生成轨迹并监督学习,突破人工标注限制,代表工作有Self-Instruct(2022)、ReST(2023)。

蒸馏技术分为三种:

  1. 离线蒸馏(教师模型轨迹离线收集训练学生,如Distilling Step-by-Step、DeepSeek-R1-Distill Models);
  2. 自蒸馏(从自身生成痕迹学习,如STaR、Quiet-STaR、Self-Rewarding Language Models);
  3. 在线策略蒸馏(当前模型生成数据并改进,如ReST-EM、DeepSeek-R1、Tree of Thoughts、RAP)。
4

章节 04

方法(二):强化学习与验证器引导学习

强化学习应用

  1. RLHF(人类反馈强化学习,如InstructGPT、Constitutional AI);
  2. RLVR(可验证奖励强化学习,如DeepSeekMath、DeepSeek-R1);
  3. 在线偏好学习(如DPO、Online DPO)。

验证器引导学习:通过过程/结果验证指导学习,如Let's Verify Step by Step、Self-Rewarding Language Models。

5

章节 05

方法(三):基于搜索与自改进技术

基于搜索的学习:利用搜索生成高质量推理轨迹,如Tree of Thoughts(树形搜索)、RAP(蒙特卡洛树搜索)、VReST(结合验证器)、Socratic-MCTS(苏格拉底式提问+MCTS)。

自改进与自我对弈:通过自身输出迭代改进,如STaR(生成-验证-微调循环)、Reflexion(自我反思)、Quiet-STaR(隐式思维链)。

6

章节 06

证据:前沿推理模型与评测/开源框架

前沿推理模型:o1/o3(OpenAI)、DeepSeek-R1(开源,纯RL训练涌现推理)、QwQ(阿里云)、Kimi Reasoning Models(月之暗面)。

评测基准:GSM8K/MATH/AIME(数学)、GPQA(研究生理综)、MMLU-Pro(多学科)、SWE-Bench(软件工程)、BrowseComp(浏览器使用)。

开源框架:TRL(Hugging Face)、OpenRLHF、verl(字节)、DeepSpeed-Chat(微软)、Megatron-LM(NVIDIA)。

7

章节 07

结论:技术演进趋势与资源库价值

大模型后训练技术呈现四大趋势:

  1. 从离线到在线(动态生成数据);
  2. 从结果到过程(关注推理过程);
  3. 从人类到自动(自动验证器替代人工反馈);
  4. 从单一到组合(多技术联用)。

该资源库为研究者提供技术地图,为实践者指明推理模型构建路径,DeepSeek-R1等开源模型的成功预示高效推理将成大模型标配。