正文

FASER：动态LLM推理中的细粒度投机解码优化系统

FASER通过细粒度阶段管理和空间复用技术，解决了传统投机解码在低负载时GPU利用率不足、高负载时计算浪费的问题，在vLLM中实现最高53%吞吐提升和1.92倍延迟降低。

投机解码LLM推理优化vLLMGPU资源管理动态负载均衡大模型服务

发布时间 2026/04/22 20:44最近活动 2026/04/23 10:18预计阅读 1 分钟

章节 01

【主楼】FASER：动态LLM推理的细粒度投机解码优化系统

FASER是针对动态LLM推理优化的细粒度投机解码系统，通过细粒度阶段管理和空间复用技术，解决传统投机解码在低负载时GPU利用率不足、高负载时计算浪费的问题。在vLLM中实现最高53%吞吐提升和1.92倍延迟降低，为LLM推理服务提供高效解决方案。

章节 02

投机解码（SD）是加速LLM推理的重要技术，核心是用小型草稿模型生成候选token再由主模型并行验证。但传统SD系统采用粗粒度管理，固定投机token长度且草稿与验证串行执行，无法适应动态流量变化，导致不同负载下的性能问题。

章节 03

低负载场景下，传统SD串行执行导致验证阶段等待草稿完成，GPU空闲，延迟累积；高负载场景下，固定投机长度无法动态调整，大量候选token被拒绝，计算浪费加剧拥塞。

章节 04

FASER的两大创新：1.动态投机长度调整（按请求独立调整，基于历史接受率）+早期剪枝（验证中拒绝则终止后续验证）；2.阶段重叠与空间复用（将验证分割为块，与草稿阶段重叠执行，共享GPU资源且干扰最小）。

章节 05

在vLLM框架中实现FASER原型，评估显示：最高53%吞吐量提升（相同硬件处理更多请求），端到端延迟最高降低1.92倍（对响应敏感场景意义重大），性能增益来自精细化资源管理和调度。

章节 06

FASER揭示：粗粒度优化在静态环境有效，但动态在线服务需细粒度管理。这一理念对LLM服务优化有指导意义，代表推理优化领域的重要进步，为工程师和研究者提供借鉴方案。