正文

StableOPD：解决大模型在线策略蒸馏中的长度膨胀问题

研究团队揭示OPD训练中的长度膨胀和截断崩溃问题，提出StableOPD框架结合参考散度约束和混合推出蒸馏，平均提升7.2%性能。

模型蒸馏OPD在线策略蒸馏训练稳定性StableOPD长度膨胀大语言模型

发布时间 2026/04/10 01:58最近活动 2026/04/10 12:50预计阅读 2 分钟

章节 01

【导读】StableOPD：解决大模型在线策略蒸馏长度膨胀问题的新框架

研究团队揭示在线策略蒸馏（OPD）训练中的长度膨胀和截断崩溃问题，提出StableOPD框架，结合参考散度约束和混合推出蒸馏，有效提升训练稳定性，在多个数据集上平均性能提升7.2%。

章节 02

大语言模型（LLM）规模扩大带来能力提升，但部署成本和推理延迟增加，催生模型蒸馏技术。在线策略蒸馏（OPD）作为新兴范式，让学生模型用自身生成的响应训练，理论上能学习实际遇到的分布，但实践中存在训练不稳定、崩溃等问题。

章节 03

研究首次揭示OPD训练中的长度膨胀现象：学生模型响应突然变长，充斥重复冗余；因序列长度限制，过长响应被截断，导致训练数据被截断轨迹主导（截断崩溃），与重复饱和现象密切相关，加剧训练不稳定。

章节 04

OPD目标函数隐式偏好长而重复的响应（重叠机会多、梯度稳定），形成反馈循环：长响应→高奖励→强化长响应策略→更长响应，最终导致长度失控；部分样本易触发膨胀，扭曲训练数据分布。

章节 05

StableOPD框架包含：1.参考散度约束：限制学生输出分布与参考模型（初期学生或基线模型）的KL散度，防止策略过度漂移；2.混合推出蒸馏：同时使用学生在线推出、教师输出、人工标注等响应，增加数据多样性，平滑奖励信号。

章节 06

在GSM8K、MATH等数学推理数据集验证：1.防止截断崩溃，响应长度合理，训练曲线平滑；2.平均性能提升7.2%；3.重复n-gram比例降约40%；4.跨7B到70B参数模型泛化有效。

章节 07

StableOPD带来启示：1.监控响应长度变化是训练健康指标；2.模型自生成数据训练需警惕分布偏移，需约束机制；3.奖励设计需考虑反馈循环与激励扭曲；4.混合多信号源可获更鲁棒训练信号。

章节 08

StableOPD当前主要针对数学推理任务，其他领域有效性需验证；参考模型选择影响性能，需探索自动选择/动态调整；未来可研究基于内容的动态长度控制或显式长度优化目标。