正文

TIDE：跨架构蒸馏让扩散语言模型小参数也能高性能

扩散语言模型(dLLM)以并行解码和双向上下文见长，但性能与参数规模绑定过紧。TIDE框架首次实现跨架构知识蒸馏，将8B/16B教师模型压缩至0.6B学生模型，代码生成HumanEval得分从32.3跃升至48.78。

扩散语言模型知识蒸馏模型压缩跨架构迁移代码生成并行解码

发布时间 2026/04/30 01:59最近活动 2026/04/30 10:32预计阅读 2 分钟

章节 01

导读：TIDE框架实现跨架构蒸馏，小参数dLLM性能大幅提升

扩散语言模型（dLLM）具备并行解码和双向上下文建模优势，但性能与参数规模绑定过紧。TIDE框架首次实现跨架构知识蒸馏，将8B密集模型和16B MoE模型压缩至0.6B轻量学生模型，在代码生成任务HumanEval上得分从32.3跃升至48.78，为dLLM的实用化突破规模瓶颈。

章节 02

dLLM凭借并行解码和双向上下文建模区别于传统自回归模型，但需数十亿参数才能竞争，制约部署。知识蒸馏是模型压缩主流手段，但现有方法局限于单一架构内部，未解决跨架构（如教师与学生在架构、注意力机制、分词器差异）的知识传递难题。

章节 03

TIDE通过三个组件解决跨架构蒸馏难点：

联合建模训练进度和扩散timestep，训练早期关注高噪声步骤，后期强化精细步骤，避免效率损失。

将输入分割为互补部分，两次前向传播补充上下文，提升教师在高掩码场景的预测质量。

反向映射学生概率分布到教师token空间，稳定梯度边界并双向过滤噪声。

章节 04

实验构建两条异构蒸馏管线：8B密集dLLM→0.6B学生，16B MoE→0.6B学生。在8个基准测试中平均提升1.53分，代码生成HumanEval得分达48.78，较自回归基线（32.3）相对提升超50%，体现dLLM在双向上下文和并行解码任务的优势。

章节 05

TIDE证明dLLM跨架构知识迁移可行，模块化组件（TIDAL、CompDemo、Reverse CALM）可独立应用于渐进式学习、半监督学习、跨表示对齐等场景。标志模型压缩从同构向异构演进，需针对架构特性设计对齐机制。

章节 06

TIDE组件可推广至其他任务（如渐进式学习、半监督学习）；异构蒸馏将成多架构时代重要课题。0.6B参数模型可在单卡/边缘设备运行，48.78的HumanEval得分满足编程辅助需求，降低部署成本，推动dLLM从实验室走向生产。