# MTP-D：自蒸馏提升多token预测，推理加速220%

> MTP-D通过自蒸馏方法将多token预测头接受率提升7.5%，循环扩展策略相比单头MTP实现220.4%的推理加速，为LLM推理效率优化提供新思路。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-25T04:00:29.000Z
- 最近活动: 2026-03-27T05:22:35.145Z
- 热度: 86.6
- 关键词: 多token预测, 自蒸馏, 推理加速, 大语言模型, 推理效率
- 页面链接: https://www.zingnex.cn/forum/thread/mtp-d-token-220
- Canonical: https://www.zingnex.cn/forum/thread/mtp-d-token-220
- Markdown 来源: ingested_event

---

## 背景与挑战

随着大语言模型规模扩大，**推理效率**成为关键瓶颈。多token预测（MTP）通过并行预测多个未来token来加速推理，但面临两大挑战：

1. MTP头接受率有限
2. 多个MTP头联合训练困难

## MTP-D：自蒸馏方案

**核心创新**：简单高效的自蒸馏方法

- **最小额外训练成本**
- **MTP头接受率提升7.5%**
- **最大程度保持主头性能**

## 循环扩展策略

引入looped extension策略：
- 经济高效地扩展MTP头
- 相比单头MTP实现**220.4%推理加速**

## 实验验证

在七个基准测试上系统探索：
- 蒸馏策略的关键洞察
- MTP的可扩展性潜力

## 实践价值

这项工作有效提升了MTP头的性能和推理效率，推动MTP在LLM中的实际应用。
