章节 01
【导读】重新思考大语言模型策略蒸馏:核心发现与实用指南
本文系统研究策略蒸馏(OPD)的动态与机制,识别出决定OPD成败的两个关键条件——思维模式兼容性与教师提供新能力;揭示成功OPD的特征是97%-99%概率质量集中在小共享token集;提出离线冷启动和教师对齐提示选择两种实用策略;同时探讨了OPD的隐性代价及长程蒸馏等未来研究方向。
正文
本文系统研究策略蒸馏(OPD)的动态与机制,识别出决定OPD成败的两个关键条件,揭示成功OPD的特征是97%-99%概率质量集中在小共享token集上,并提出离线冷启动和教师对齐提示选择两种实用策略。
章节 01
本文系统研究策略蒸馏(OPD)的动态与机制,识别出决定OPD成败的两个关键条件——思维模式兼容性与教师提供新能力;揭示成功OPD的特征是97%-99%概率质量集中在小共享token集;提出离线冷启动和教师对齐提示选择两种实用策略;同时探讨了OPD的隐性代价及长程蒸馏等未来研究方向。
章节 02
策略蒸馏(OPD)是大语言模型后训练的核心技术,与传统监督微调(SFT)不同,它使用学生模型自身生成的输出作为训练信号,由教师模型评判指导,在数学推理、代码生成等复杂任务中优势显著。但目前对其训练动态和内在机制缺乏系统理解,如OPD成败的原因、成功特征及失败修复方法等问题亟待解答。
章节 03
研究识别出OPD成功的两个关键条件:
章节 04
为验证条件,团队设计弱到强反向蒸馏实验:让1.5B参数弱模型当教师,7B参数强模型当学生。结果发现,同家族的1.5B和7B教师对学生而言分布不可区分——即使7B模型能力更强,若无法提供学生未掌握的新能力,蒸馏也无效,验证了条件二的重要性。
章节 05
成功OPD的微观机制表现为:
章节 06
基于机制理解,提出两种修复策略:
章节 07
OPD的密集token奖励存在代价:信用分配问题、短视优化风险、长程依赖困难。实践启示包括:
章节 08
研究局限:任务范围限于数学推理、代码生成等可验证任务;实验在中小规模模型(1.5B-7B)上进行;长程任务有效性未验证;理论深度需更多数学分析。未来方向:探索OPD在长程任务中的应用,扩展到开放式生成任务及大规模模型,深化理论理解。