章节 01
导读:TIDE框架实现跨架构蒸馏,小参数dLLM性能大幅提升
扩散语言模型(dLLM)具备并行解码和双向上下文建模优势,但性能与参数规模绑定过紧。TIDE框架首次实现跨架构知识蒸馏,将8B密集模型和16B MoE模型压缩至0.6B轻量学生模型,在代码生成任务HumanEval上得分从32.3跃升至48.78,为dLLM的实用化突破规模瓶颈。
正文
扩散语言模型(dLLM)以并行解码和双向上下文见长,但性能与参数规模绑定过紧。TIDE框架首次实现跨架构知识蒸馏,将8B/16B教师模型压缩至0.6B学生模型,代码生成HumanEval得分从32.3跃升至48.78。
章节 01
扩散语言模型(dLLM)具备并行解码和双向上下文建模优势,但性能与参数规模绑定过紧。TIDE框架首次实现跨架构知识蒸馏,将8B密集模型和16B MoE模型压缩至0.6B轻量学生模型,在代码生成任务HumanEval上得分从32.3跃升至48.78,为dLLM的实用化突破规模瓶颈。
章节 02
dLLM凭借并行解码和双向上下文建模区别于传统自回归模型,但需数十亿参数才能竞争,制约部署。知识蒸馏是模型压缩主流手段,但现有方法局限于单一架构内部,未解决跨架构(如教师与学生在架构、注意力机制、分词器差异)的知识传递难题。
章节 03
TIDE通过三个组件解决跨架构蒸馏难点:
联合建模训练进度和扩散timestep,训练早期关注高噪声步骤,后期强化精细步骤,避免效率损失。
将输入分割为互补部分,两次前向传播补充上下文,提升教师在高掩码场景的预测质量。
反向映射学生概率分布到教师token空间,稳定梯度边界并双向过滤噪声。
章节 04
实验构建两条异构蒸馏管线:8B密集dLLM→0.6B学生,16B MoE→0.6B学生。在8个基准测试中平均提升1.53分,代码生成HumanEval得分达48.78,较自回归基线(32.3)相对提升超50%,体现dLLM在双向上下文和并行解码任务的优势。
章节 05
TIDE证明dLLM跨架构知识迁移可行,模块化组件(TIDAL、CompDemo、Reverse CALM)可独立应用于渐进式学习、半监督学习、跨表示对齐等场景。标志模型压缩从同构向异构演进,需针对架构特性设计对齐机制。
章节 06
TIDE组件可推广至其他任务(如渐进式学习、半监督学习);异构蒸馏将成多架构时代重要课题。0.6B参数模型可在单卡/边缘设备运行,48.78的HumanEval得分满足编程辅助需求,降低部署成本,推动dLLM从实验室走向生产。