正文

重新思考大语言模型的策略蒸馏：现象、机制与实用指南

本文系统研究策略蒸馏(OPD)的动态与机制，识别出决定OPD成败的两个关键条件，揭示成功OPD的特征是97%-99%概率质量集中在小共享token集上，并提出离线冷启动和教师对齐提示选择两种实用策略。

策略蒸馏知识蒸馏大语言模型后训练token对齐教师选择模型优化

发布时间 2026/04/15 01:54最近活动 2026/04/15 10:57预计阅读 2 分钟

章节 01

【导读】重新思考大语言模型策略蒸馏：核心发现与实用指南

本文系统研究策略蒸馏(OPD)的动态与机制，识别出决定OPD成败的两个关键条件——思维模式兼容性与教师提供新能力；揭示成功OPD的特征是97%-99%概率质量集中在小共享token集；提出离线冷启动和教师对齐提示选择两种实用策略；同时探讨了OPD的隐性代价及长程蒸馏等未来研究方向。

章节 02

策略蒸馏（OPD）是大语言模型后训练的核心技术，与传统监督微调（SFT）不同，它使用学生模型自身生成的输出作为训练信号，由教师模型评判指导，在数学推理、代码生成等复杂任务中优势显著。但目前对其训练动态和内在机制缺乏系统理解，如OPD成败的原因、成功特征及失败修复方法等问题亟待解答。

章节 03

研究识别出OPD成功的两个关键条件：

章节 04

为验证条件，团队设计弱到强反向蒸馏实验：让1.5B参数弱模型当教师，7B参数强模型当学生。结果发现，同家族的1.5B和7B教师对学生而言分布不可区分——即使7B模型能力更强，若无法提供学生未掌握的新能力，蒸馏也无效，验证了条件二的重要性。

章节 05

成功OPD的微观机制表现为：

章节 06

基于机制理解，提出两种修复策略：

章节 07

OPD的密集token奖励存在代价：信用分配问题、短视优化风险、长程依赖困难。实践启示包括：

章节 08

研究局限：任务范围限于数学推理、代码生成等可验证任务；实验在中小规模模型（1.5B-7B）上进行；长程任务有效性未验证；理论深度需更多数学分析。未来方向：探索OPD在长程任务中的应用，扩展到开放式生成任务及大规模模型，深化理论理解。