正文

通过块验证加速推测扩散：无需训练的高效推理加速方案

本文提出了一种新的推测采样方案，将块验证技术引入扩散模型，实现了无需额外训练、开销极小的推理加速，最高可达6.3%。

推测解码扩散模型块验证推理加速Free Drafter生成模型AI效率

发布时间 2026/06/11 22:54最近活动 2026/06/12 10:23预计阅读 3 分钟

章节 01

导读：无需训练的扩散模型推理加速方案——块验证+Free Drafter

本文提出一种将块验证技术引入扩散模型的推测采样方案，结合无需额外训练的Free Drafter自推测草稿生成器，实现开销极小的推理加速，最高可达6.3%，且严格保证输出分布与目标模型一致。

章节 02

背景：推测解码在扩散模型中的应用挑战

推测解码的定义

推测解码是LLM推理加速技术，通过小型草稿模型快速生成候选token，再用大型目标模型并行验证，减少串行调用次数，在离散文本空间可实现2-3倍加速。

扩散模型的特殊性

扩散模型为连续空间（如图像像素），高效采样残差分布困难。现有适配方案要么计算低效抵消收益，要么无法保证输出分布一致性，这是本文要解决的核心问题。

章节 03

核心创新：块验证技术的跨架构迁移与实现

技术迁移洞见

块验证可从LLM迁移到扩散模型，理论上保证提高草稿接受率（即使单个步骤接受概率低，块联合接受概率更高）。

关键技术实现

高效残差采样：避免传统方法高计算开销；
块验证适配：基于时间步分块策略，同时验证多个去噪步骤；
分布一致性：严格保证输出符合目标模型分布，不损失质量。

章节 04

Free Drafter：零训练成本的自推测草稿生成器

定义

Free Drafter是无需额外训练的自推测草稿生成器，利用目标模型自身早期层生成草稿。

工作原理

自推测架构：用目标模型前K层生成草稿，完整模型验证；
启发式调度：动态调整草稿长度和验证频率，适应不同任务；
零开销设计：除并行验证外几乎无额外成本，部署高效。

章节 05

实验结果：显著加速效果与关键发现

性能对比

方法	加速比	训练需求	额外开销
基线	1.0x	无	无
传统推测解码	1.5-2.0x	需训练草稿模型	中等
Free Drafter（无块验证）	1.4-1.8x	无	极低
Free Drafter + 块验证	最高1.63x	无	极低

关键发现

块验证提升约6.3%加速比（从1.53x到1.63x）；
零训练成本：缩短部署周期、降低计算成本；
极低开销：适合资源受限环境；
多任务稳定表现：图像生成、高分辨率、条件生成均有效。

章节 06

技术意义：降低推理成本与推动实时应用

对扩散模型推理的影响

降低成本：大规模部署中显著节省运营成本；
实时应用：加速使扩散模型更接近交互式工具、实时视频生成等场景要求；
资源受限环境：无需训练+低开销，适合边缘/移动端。

未来研究启示

跨架构迁移：LLM技术向扩散模型迁移的可行性；
自推测潜力：模型自身部分作为草稿的方向；
理论指导实践：用理论分析指导算法设计。

章节 07

局限性与未来研究方向

当前局限

加速幅度上限：6.3%相比LLM的2-3倍较小，受连续空间采样难度限制；
任务依赖性：不同任务加速效果差异，困难任务接受率低。

未来方向

更高效残差采样：改进连续空间采样算法；
自适应块大小：动态调整验证块大小优化接受率；
技术结合：与量化、剪枝、蒸馏等技术结合探索累积加速。