章节 01
导读:无需训练的扩散模型推理加速方案——块验证+Free Drafter
本文提出一种将块验证技术引入扩散模型的推测采样方案,结合无需额外训练的Free Drafter自推测草稿生成器,实现开销极小的推理加速,最高可达6.3%,且严格保证输出分布与目标模型一致。
正文
本文提出了一种新的推测采样方案,将块验证技术引入扩散模型,实现了无需额外训练、开销极小的推理加速,最高可达6.3%。
章节 01
本文提出一种将块验证技术引入扩散模型的推测采样方案,结合无需额外训练的Free Drafter自推测草稿生成器,实现开销极小的推理加速,最高可达6.3%,且严格保证输出分布与目标模型一致。
章节 02
推测解码是LLM推理加速技术,通过小型草稿模型快速生成候选token,再用大型目标模型并行验证,减少串行调用次数,在离散文本空间可实现2-3倍加速。
扩散模型为连续空间(如图像像素),高效采样残差分布困难。现有适配方案要么计算低效抵消收益,要么无法保证输出分布一致性,这是本文要解决的核心问题。
章节 03
块验证可从LLM迁移到扩散模型,理论上保证提高草稿接受率(即使单个步骤接受概率低,块联合接受概率更高)。
章节 04
Free Drafter是无需额外训练的自推测草稿生成器,利用目标模型自身早期层生成草稿。
章节 05
| 方法 | 加速比 | 训练需求 | 额外开销 |
|---|---|---|---|
| 基线 | 1.0x | 无 | 无 |
| 传统推测解码 | 1.5-2.0x | 需训练草稿模型 | 中等 |
| Free Drafter(无块验证) | 1.4-1.8x | 无 | 极低 |
| Free Drafter + 块验证 | 最高1.63x | 无 | 极低 |
章节 06
章节 07