Zing 论坛

正文

VIA-SD:通过模型内路由实现分层验证的推测解码新范式

VIA-SD提出三层级推测解码框架,通过模型内路由将验证任务分配给轻量级子模型处理中等置信度token,在保持输出质量的同时将推理速度提升10-20%,相比非推测解码实现2.5-3倍加速。

speculative decodingLLM inferencemodel routingefficiencyverification
发布时间 2026/06/10 23:45最近活动 2026/06/11 11:48预计阅读 2 分钟
VIA-SD:通过模型内路由实现分层验证的推测解码新范式
1

章节 01

VIA-SD:分层验证推测解码新范式导读

VIA-SD核心信息

  • 来源:arXiv(2026年6月10日发布),原文链接:http://arxiv.org/abs/2606.12243v1
  • 作者团队:论文作者团队,项目主页:https://zju-xyc.github.io/VIA-SD-Project-Page/
  • 核心创新:提出三层级推测解码框架,通过模型内路由将验证任务分配给轻量级子模型处理中等置信度token
  • 性能效果:保持输出质量的同时推理速度提升10-20%,相比非推测解码实现2.5-3倍加速

该技术打破传统推测解码的二元决策局限,为大模型推理加速提供新范式。

2

章节 02

背景:大模型推理加速的二元决策困境

随着LLM参数规模膨胀,推理成本成为部署瓶颈。推测解码(SD)通过草稿模型生成候选、验证模型并行验证提升吞吐量,但传统SD采用二元决策机制:

  • 对候选token要么完全接受,要么完全拒绝并重新计算
  • 大量中等置信度token被拒绝后需调用完整大模型,造成计算资源浪费

这一"一刀切"策略制约了SD的效率提升。

3

章节 03

VIA-SD三层架构与模型内路由技术

三层级验证架构

  1. 高置信度token:直接接受,无需额外验证
  2. 中等置信度token:激活从主模型衍生的轻量级验证器(slim-verifier)处理
  3. 低置信度token:调用完整验证模型验证

模型内路由设计优势

  • 轻量验证器与主模型共享参数,无额外存储开销
  • 继承主模型知识,避免独立小模型的知识断层
  • 无缝集成现有SD框架,无需修改训练流程或架构

该设计实现计算资源的精细化分配。

4

章节 04

实验验证:显著的性能提升数据

在四个代表性任务上的实验结果:

  • 拒绝率降低:token拒绝率下降0.10-0.22,更多候选token被有效利用
  • 相对加速:相比强基线SD方法,实现10-20%额外加速
  • 绝对加速:相比非推测解码,实现2.5-3倍推理加速

验证了三层级策略的实际性能收益。

5

章节 05

兼容性优势与技术意义

兼容性

VIA-SD可直接应用于已训练的SD系统,无需重新训练草稿/验证模型,工程师可快速部署并获得性能提升。

技术意义

VIA-SD标志推测解码从"二元决策"向"多层级精细化验证"的演进,揭示推理加速需在验证阶段智能分配计算资源。

6

章节 06

启示与未来方向

VIA-SD的思路为大模型推理优化提供借鉴:

  • 未来可探索基于置信度分层、动态资源调度的方案
  • 推动大模型在边缘设备、实时交互等场景的高效部署

核心启示:效率提升不在于增加计算,而在于更聪明地分配已有计算资源。