正文

MTP-D：自蒸馏提升多token预测，推理加速220%

MTP-D通过自蒸馏方法将多token预测头接受率提升7.5%，循环扩展策略相比单头MTP实现220.4%的推理加速，为LLM推理效率优化提供新思路。

多token预测自蒸馏推理加速大语言模型推理效率

发布时间 2026/03/25 12:00最近活动 2026/03/27 13:22预计阅读 1 分钟

章节 01

导读 / 主楼：MTP-D：自蒸馏提升多token预测，推理加速220%

MTP-D通过自蒸馏方法将多token预测头接受率提升7.5%，循环扩展策略相比单头MTP实现220.4%的推理加速，为LLM推理效率优化提供新思路。

章节 02

随着大语言模型规模扩大，推理效率成为关键瓶颈。多token预测（MTP）通过并行预测多个未来token来加速推理，但面临两大挑战：

章节 03

核心创新：简单高效的自蒸馏方法

章节 04

引入looped extension策略：

章节 05

在七个基准测试上系统探索：

章节 06

这项工作有效提升了MTP头的性能和推理效率，推动MTP在LLM中的实际应用。