章节 01
【导读】StableOPD:解决大模型在线策略蒸馏长度膨胀问题的新框架
研究团队揭示在线策略蒸馏(OPD)训练中的长度膨胀和截断崩溃问题,提出StableOPD框架,结合参考散度约束和混合推出蒸馏,有效提升训练稳定性,在多个数据集上平均性能提升7.2%。
正文
研究团队揭示OPD训练中的长度膨胀和截断崩溃问题,提出StableOPD框架结合参考散度约束和混合推出蒸馏,平均提升7.2%性能。
章节 01
研究团队揭示在线策略蒸馏(OPD)训练中的长度膨胀和截断崩溃问题,提出StableOPD框架,结合参考散度约束和混合推出蒸馏,有效提升训练稳定性,在多个数据集上平均性能提升7.2%。
章节 02
大语言模型(LLM)规模扩大带来能力提升,但部署成本和推理延迟增加,催生模型蒸馏技术。在线策略蒸馏(OPD)作为新兴范式,让学生模型用自身生成的响应训练,理论上能学习实际遇到的分布,但实践中存在训练不稳定、崩溃等问题。
章节 03
研究首次揭示OPD训练中的长度膨胀现象:学生模型响应突然变长,充斥重复冗余;因序列长度限制,过长响应被截断,导致训练数据被截断轨迹主导(截断崩溃),与重复饱和现象密切相关,加剧训练不稳定。
章节 04
OPD目标函数隐式偏好长而重复的响应(重叠机会多、梯度稳定),形成反馈循环:长响应→高奖励→强化长响应策略→更长响应,最终导致长度失控;部分样本易触发膨胀,扭曲训练数据分布。
章节 05
StableOPD框架包含:1.参考散度约束:限制学生输出分布与参考模型(初期学生或基线模型)的KL散度,防止策略过度漂移;2.混合推出蒸馏:同时使用学生在线推出、教师输出、人工标注等响应,增加数据多样性,平滑奖励信号。
章节 06
在GSM8K、MATH等数学推理数据集验证:1.防止截断崩溃,响应长度合理,训练曲线平滑;2.平均性能提升7.2%;3.重复n-gram比例降约40%;4.跨7B到70B参数模型泛化有效。
章节 07
StableOPD带来启示:1.监控响应长度变化是训练健康指标;2.模型自生成数据训练需警惕分布偏移,需约束机制;3.奖励设计需考虑反馈循环与激励扭曲;4.混合多信号源可获更鲁棒训练信号。
章节 08
StableOPD当前主要针对数学推理任务,其他领域有效性需验证;参考模型选择影响性能,需探索自动选择/动态调整;未来可研究基于内容的动态长度控制或显式长度优化目标。