Zing 论坛

正文

Domino:解耦因果建模与自回归起草的投机解码新框架

Domino通过并行起草主干生成候选token,再用轻量级因果头进行精修,在Qwen3模型上实现最高5.8倍吞吐加速,突破了传统投机解码中质量与成本的权衡困境。

Domino投机解码因果建模自回归并行起草推理加速Qwen3大模型推理吞吐量优化
发布时间 2026/05/28 18:07最近活动 2026/05/29 13:51预计阅读 2 分钟
Domino:解耦因果建模与自回归起草的投机解码新框架
1

章节 01

Domino框架导读:解耦因果建模与自回归起草的投机解码新突破

Domino是针对投机解码的创新框架,通过解耦并行起草主干与轻量级因果精修模块(Domino头),突破传统投机解码中质量与成本的权衡困境。在Qwen3模型上,Domino实现最高5.8倍吞吐加速,显著提升大模型推理效率。

2

章节 02

投机解码的核心矛盾:质量与速度的两难选择

投机解码依赖起草器生成候选token、验证器验证正确性。传统方案面临两难:

  • 自回归起草器:准确建模因果依赖,候选接受率高,但顺序生成无法并行,速度慢;
  • 并行起草器:一次性生成token块,速度快,但忽视因果依赖,候选质量低、接受率低。现有方案难以兼顾两者。
3

章节 03

Domino的解耦架构与训练策略

解耦架构

  1. 并行起草主干:完全并行生成token块初步概率分布,最大化硬件算力利用;
  2. 轻量级Domino头:以主干输出为输入,结合前缀上下文修正分布,引入因果依赖,计算开销小。

训练策略

采用"基础锚定"课程:

  1. 独立训练并行主干,使其具备基本预测能力;
  2. 渐进式联合训练Domino头,优化目标从匹配教师分布转向因果一致,缓解暴露偏差。
4

章节 04

实验结果:Qwen3模型上的性能验证

Domino在Qwen3模型家族的评估结果:

  • 端到端加速:Transformers推理后端达5.49倍,SGLang服务框架下最高5.8倍;
  • 对比现有方案:保持相近接受率的同时降低起草延迟,或提升接受率减少验证浪费;
  • 扩展性:块大小增加时优势更明显,并行收益高且质量不下降。
5

章节 05

Domino的应用场景与部署建议

Domino适用于以下场景:

  • 高吞吐在线服务:最大化GPU利用率,降低单位请求成本;
  • 长文本生成:减少推理步数,提升文档/代码生成效率;
  • 资源受限环境:轻量Domino头支持边缘/移动端部署;
  • 与推测执行结合:进一步优化端到端延迟。
6

章节 06

领域启示与未来展望

领域启示

  • 解耦优于妥协:将质量与速度目标拆分到不同组件优化;
  • 轻量修正价值:特定场景下后处理修正比端到端模型更有效;
  • 训练策略关键:基础锚定课程解决训练不稳定问题。

未来方向

  • 多尺度Domino头:根据计算预算灵活选择;
  • 自适应块大小:动态调整投机块大小;
  • 跨模型迁移:通用Domino头服务多个目标模型。