Zing 论坛

正文

On-Policy Distillation:让大语言模型知识蒸馏从"模仿"走向"纠错"

本文深入解读了On-Policy Distillation(OPD)这一前沿技术,它通过让教师模型对学生实际生成的输出提供反馈,解决了传统知识蒸馏中暴露偏差随序列长度平方增长的结构性问题,为大语言模型的能力迁移提供了新的范式。

大语言模型知识蒸馏On-Policy Distillation机器学习模型压缩强化学习RLHF暴露偏差AI研究综述
发布时间 2026/06/02 12:13最近活动 2026/06/02 12:18预计阅读 2 分钟
On-Policy Distillation:让大语言模型知识蒸馏从"模仿"走向"纠错"
1

章节 01

导读:On-Policy Distillation——大模型知识蒸馏的范式转变

本文基于nick7nlp维护的AwesomeOPD仓库及相关论文,深入解读On-Policy Distillation(OPD)技术。该技术解决了传统知识蒸馏中暴露偏差随序列长度平方增长的结构性问题,通过让教师模型对学生实际生成的输出提供反馈,实现从“模仿”到“纠错”的范式转变,为大语言模型能力迁移提供新路径。

2

章节 02

背景:传统知识蒸馏的暴露偏差困境

随着大语言模型(LLM)能力提升,将其能力迁移到小模型成为工程核心难题。传统知识蒸馏采用静态模仿范式(学生模仿教师输出),但存在结构性弱点:训练时学生接触教师的“完美前缀”,推理时需自行生成,微小错误累积形成暴露偏差,其严重程度与序列长度平方成正比,在长文本、复杂推理任务中问题突出。

3

章节 03

方法:OPD的核心思想与技术框架

OPD针对暴露偏差问题,核心是让教师对学生实际生成的输出提供反馈,将单次模仿重构为迭代纠错过程,目标是将错误累积从二次项降为线性。其理论基础为学生采样轨迹上的f-散度最小化,可从三个维度梳理:

  1. 优化什么:分布匹配(最小化师生输出分布散度)或奖励引导(结合强化学习目标);
  2. 信号来源:直接分布比较、蒙特卡洛估计、价值函数信用分配等;
  3. 训练稳定性:通过重要性采样、梯度裁剪、KL散度约束等解决分布漂移、梯度方差大等问题,与KL约束强化学习有深刻联系。
4

章节 04

OPD与RLHF、模仿学习的交汇

OPD研究散落在知识蒸馏、RLHF、模仿学习等社区,本文将其整合为连贯框架。方法论上,OPD位于监督学习与强化学习交汇地带:保留蒸馏的监督信号,引入策略梯度探索机制,兼具监督学习的训练稳定性与强化学习处理长序列的试错能力。

5

章节 05

前沿研究方向与开放问题

综述提出未来研究方向:

  1. 蒸馏缩放定律:量化学生/教师规模、蒸馏数据量的关系;
  2. 不确定性感知反馈:教师显式建模自身不确定性并传递给学生;
  3. 智能体蒸馏:扩展OPD至多步决策、工具使用、环境交互场景;
  4. 知识蒸馏与RL融合:探索两者统一框架。
6

章节 06

实践意义与工程启示

OPD对生产级LLM系统有重要价值,适用场景包括:长文本/复杂推理应用、延迟敏感的小模型部署、师生能力差距大的情况。但需权衡额外计算开销与实现复杂度。AwesomeOPD仓库整理了领域重要论文,是入门良好起点。

7

章节 07

结语:OPD的未来价值

OPD代表知识蒸馏范式的重要演进,从“模仿”转向“纠错”,契合人类学习特征。随着LLM向更长上下文、更强推理能力发展,OPD这类处理暴露偏差的技术将愈发重要。