Zing 论坛

正文

StableOPD:解决大模型在线策略蒸馏中的长度膨胀问题

研究团队揭示OPD训练中的长度膨胀和截断崩溃问题,提出StableOPD框架结合参考散度约束和混合推出蒸馏,平均提升7.2%性能。

模型蒸馏OPD在线策略蒸馏训练稳定性StableOPD长度膨胀大语言模型
发布时间 2026/04/10 01:58最近活动 2026/04/10 12:50预计阅读 2 分钟
StableOPD:解决大模型在线策略蒸馏中的长度膨胀问题
1

章节 01

【导读】StableOPD:解决大模型在线策略蒸馏长度膨胀问题的新框架

研究团队揭示在线策略蒸馏(OPD)训练中的长度膨胀和截断崩溃问题,提出StableOPD框架,结合参考散度约束和混合推出蒸馏,有效提升训练稳定性,在多个数据集上平均性能提升7.2%。

2

章节 02

背景:模型蒸馏与在线策略蒸馏的兴起

大语言模型(LLM)规模扩大带来能力提升,但部署成本和推理延迟增加,催生模型蒸馏技术。在线策略蒸馏(OPD)作为新兴范式,让学生模型用自身生成的响应训练,理论上能学习实际遇到的分布,但实践中存在训练不稳定、崩溃等问题。

3

章节 03

OPD的关键失败模式:长度膨胀与截断崩溃

研究首次揭示OPD训练中的长度膨胀现象:学生模型响应突然变长,充斥重复冗余;因序列长度限制,过长响应被截断,导致训练数据被截断轨迹主导(截断崩溃),与重复饱和现象密切相关,加剧训练不稳定。

4

章节 04

长度膨胀的根源:目标函数与数据收集的反馈循环

OPD目标函数隐式偏好长而重复的响应(重叠机会多、梯度稳定),形成反馈循环:长响应→高奖励→强化长响应策略→更长响应,最终导致长度失控;部分样本易触发膨胀,扭曲训练数据分布。

5

章节 05

StableOPD框架:两大核心组件稳定训练

StableOPD框架包含:1.参考散度约束:限制学生输出分布与参考模型(初期学生或基线模型)的KL散度,防止策略过度漂移;2.混合推出蒸馏:同时使用学生在线推出、教师输出、人工标注等响应,增加数据多样性,平滑奖励信号。

6

章节 06

实验验证:StableOPD的性能与稳定性提升

在GSM8K、MATH等数学推理数据集验证:1.防止截断崩溃,响应长度合理,训练曲线平滑;2.平均性能提升7.2%;3.重复n-gram比例降约40%;4.跨7B到70B参数模型泛化有效。

7

章节 07

训练实践启示:监控与约束的重要性

StableOPD带来启示:1.监控响应长度变化是训练健康指标;2.模型自生成数据训练需警惕分布偏移,需约束机制;3.奖励设计需考虑反馈循环与激励扭曲;4.混合多信号源可获更鲁棒训练信号。

8

章节 08

局限与未来方向

StableOPD当前主要针对数学推理任务,其他领域有效性需验证;参考模型选择影响性能,需探索自动选择/动态调整;未来可研究基于内容的动态长度控制或显式长度优化目标。