正文

SSD：简单自蒸馏显著提升代码生成能力

简单自蒸馏（SSD）通过特定温度配置采样并用标准监督微调训练，无需验证器、教师模型或强化学习即可提升代码生成能力，在LiveCodeBench上将Qwen3-30B-Instruct的pass@1从42.4%提升至55.3%。

自蒸馏代码生成SSDLiveCodeBench监督微调模型自我改进温度采样

发布时间 2026/04/02 01:39最近活动 2026/04/02 10:52预计阅读 2 分钟

章节 01

SSD：简单自蒸馏显著提升代码生成能力（导读）

简单自蒸馏（SSD）通过特定温度配置采样+标准监督微调训练，无需验证器、教师模型或强化学习即可提升代码生成能力。在LiveCodeBench上，SSD将Qwen3-30B-Instruct的pass@1从42.4%提升至55.3%，方法简洁通用，适用于多种模型与规模。

章节 02

大语言模型已展现强大代码生成能力，但传统后训练方法依赖外部资源：强化学习需复杂奖励函数，蒸馏需更强教师模型，验证器需代码执行环境。这些依赖增加复杂度，限制可扩展性，引发核心问题——能否让模型仅凭自身输出提升？

章节 03

SSD核心流程仅两步：1. 用特定温度和截断配置从模型自身采样解决方案；2. 用这些样本进行标准监督微调。其假设是模型已知道正确答案，需更可靠输出。高温度采样探索多样方案，筛选微调巩固有效模式。SSD简洁通用，可在标准基础设施实现，适用于各规模/类型模型。

章节 04

SSD效果显著：在LiveCodeBench v6上，Qwen3-30B-Instruct pass@1提升超12个百分点（42.4%→55.3%），增益集中于复杂多步推理问题。泛化性强：适用于Qwen/Llama系列、4B-30B规模、指令/推理模型，触及代码生成基本原理。

章节 05

SSD解决LLM解码中精度与探索的冲突：高温度采样探索多样方案，筛选正确样本后微调，重塑token分布，实现上下文依赖调整（精确处集中，需探索处保持多样性）。无需外部验证器：利用测试用例执行结果筛选正确样本，验证过程快速可靠，训练为标准监督学习，降低成本。

章节 06

与强化学习比：更简单稳定，避免奖励函数设计与训练不稳定；与蒸馏比：更自主通用，无需外部教师模型；与验证器方法比：更高效灵活，仅训练时验证，推理无额外步骤。

章节 07

应用建议：采样温度选0.8-1.2，top-p/top-k截断；每个问题生成数十到数百样本；微调用小学习率与正则化。局限：依赖测试用例筛选，对无明确测试标准任务受限；主要提升pass@1。未来方向：迭代/多轮自蒸馏，扩展到数学推理等任务，结合其他后训练方法。

章节 08

启示：简单方法可能最有效，AI可自我改进（从自身输出学习），需关注基础原理。结语：SSD用简单技术实现显著效果，挑战固有认知，为开发者提供立即可用工具，未来将有更多自蒸馏创新方法。