Zing 论坛

正文

TIDE:跨架构蒸馏让扩散语言模型小参数也能高性能

扩散语言模型(dLLM)以并行解码和双向上下文见长,但性能与参数规模绑定过紧。TIDE框架首次实现跨架构知识蒸馏,将8B/16B教师模型压缩至0.6B学生模型,代码生成HumanEval得分从32.3跃升至48.78。

扩散语言模型知识蒸馏模型压缩跨架构迁移代码生成并行解码
发布时间 2026/04/30 01:59最近活动 2026/04/30 10:32预计阅读 2 分钟
TIDE:跨架构蒸馏让扩散语言模型小参数也能高性能
1

章节 01

导读:TIDE框架实现跨架构蒸馏,小参数dLLM性能大幅提升

扩散语言模型(dLLM)具备并行解码和双向上下文建模优势,但性能与参数规模绑定过紧。TIDE框架首次实现跨架构知识蒸馏,将8B密集模型和16B MoE模型压缩至0.6B轻量学生模型,在代码生成任务HumanEval上得分从32.3跃升至48.78,为dLLM的实用化突破规模瓶颈。

2

章节 02

背景:dLLM的优势与规模困境及现有蒸馏局限

dLLM凭借并行解码和双向上下文建模区别于传统自回归模型,但需数十亿参数才能竞争,制约部署。知识蒸馏是模型压缩主流手段,但现有方法局限于单一架构内部,未解决跨架构(如教师与学生在架构、注意力机制、分词器差异)的知识传递难题。

3

章节 03

TIDE框架的三重创新组件解析

TIDE通过三个组件解决跨架构蒸馏难点:

TIDAL:动态调节蒸馏强度

联合建模训练进度和扩散timestep,训练早期关注高噪声步骤,后期强化精细步骤,避免效率损失。

CompDemo:互补掩码增强上下文

将输入分割为互补部分,两次前向传播补充上下文,提升教师在高掩码场景的预测质量。

Reverse CALM:跨分词器对齐

反向映射学生概率分布到教师token空间,稳定梯度边界并双向过滤噪声。

4

章节 04

实验验证:TIDE在多任务上的性能突破

实验构建两条异构蒸馏管线:8B密集dLLM→0.6B学生,16B MoE→0.6B学生。在8个基准测试中平均提升1.53分,代码生成HumanEval得分达48.78,较自回归基线(32.3)相对提升超50%,体现dLLM在双向上下文和并行解码任务的优势。

5

章节 05

结论:TIDE为dLLM实用化开辟新路径

TIDE证明dLLM跨架构知识迁移可行,模块化组件(TIDAL、CompDemo、Reverse CALM)可独立应用于渐进式学习、半监督学习、跨表示对齐等场景。标志模型压缩从同构向异构演进,需针对架构特性设计对齐机制。

6

章节 06

未来展望:TIDE组件的推广及dLLM部署前景

TIDE组件可推广至其他任务(如渐进式学习、半监督学习);异构蒸馏将成多架构时代重要课题。0.6B参数模型可在单卡/边缘设备运行,48.78的HumanEval得分满足编程辅助需求,降低部署成本,推动dLLM从实验室走向生产。