正文

Domino：解耦因果建模与自回归起草的投机解码新框架

Domino通过并行起草主干生成候选token，再用轻量级因果头进行精修，在Qwen3模型上实现最高5.8倍吞吐加速，突破了传统投机解码中质量与成本的权衡困境。

Domino投机解码因果建模自回归并行起草推理加速Qwen3大模型推理吞吐量优化

发布时间 2026/05/28 18:07最近活动 2026/05/29 13:51预计阅读 2 分钟

Domino：解耦因果建模与自回归起草的投机解码新框架

1

章节 01

Domino框架导读：解耦因果建模与自回归起草的投机解码新突破

Domino是针对投机解码的创新框架，通过解耦并行起草主干与轻量级因果精修模块（Domino头），突破传统投机解码中质量与成本的权衡困境。在Qwen3模型上，Domino实现最高5.8倍吞吐加速，显著提升大模型推理效率。

2

章节 02

投机解码的核心矛盾：质量与速度的两难选择

投机解码依赖起草器生成候选token、验证器验证正确性。传统方案面临两难：

自回归起草器：准确建模因果依赖，候选接受率高，但顺序生成无法并行，速度慢；
并行起草器：一次性生成token块，速度快，但忽视因果依赖，候选质量低、接受率低。现有方案难以兼顾两者。

3

章节 03

Domino的解耦架构与训练策略

解耦架构

并行起草主干：完全并行生成token块初步概率分布，最大化硬件算力利用；
轻量级Domino头：以主干输出为输入，结合前缀上下文修正分布，引入因果依赖，计算开销小。

训练策略

采用"基础锚定"课程：

独立训练并行主干，使其具备基本预测能力；
渐进式联合训练Domino头，优化目标从匹配教师分布转向因果一致，缓解暴露偏差。

4

章节 04

实验结果：Qwen3模型上的性能验证

Domino在Qwen3模型家族的评估结果：

端到端加速：Transformers推理后端达5.49倍，SGLang服务框架下最高5.8倍；
对比现有方案：保持相近接受率的同时降低起草延迟，或提升接受率减少验证浪费；
扩展性：块大小增加时优势更明显，并行收益高且质量不下降。

5

章节 05

Domino的应用场景与部署建议

Domino适用于以下场景：

高吞吐在线服务：最大化GPU利用率，降低单位请求成本；
长文本生成：减少推理步数，提升文档/代码生成效率；
资源受限环境：轻量Domino头支持边缘/移动端部署；
与推测执行结合：进一步优化端到端延迟。

6

章节 06

领域启示与未来展望

领域启示

解耦优于妥协：将质量与速度目标拆分到不同组件优化；
轻量修正价值：特定场景下后处理修正比端到端模型更有效；
训练策略关键：基础锚定课程解决训练不稳定问题。

未来方向

多尺度Domino头：根据计算预算灵活选择；
自适应块大小：动态调整投机块大小；
跨模型迁移：通用Domino头服务多个目标模型。