Zing 论坛

正文

Feather:通过强化学习优化前缀同质性,实现LLM推理吞吐量2-10倍提升

Feather是一种前缀感知调度器,使用强化学习在批大小和前缀同质性之间寻找最优权衡,并引入分块哈希树(CHT)实现快速前缀检测,在vLLM和SGLang集成测试中实现2-10倍吞吐量提升。

FeatherLLM推理前缀共享批处理优化强化学习KV缓存vLLM调度器
发布时间 2026/05/07 19:34最近活动 2026/05/08 11:49预计阅读 2 分钟
Feather:通过强化学习优化前缀同质性,实现LLM推理吞吐量2-10倍提升
1

章节 01

Feather:强化学习优化前缀同质性,实现LLM推理吞吐量2-10倍提升(导读)

Feather是一种前缀感知调度器,核心通过强化学习在批大小与前缀同质性间寻找最优权衡,并引入分块哈希树(CHT)实现快速前缀检测。在vLLM和SGLang集成测试中,Feather实现2-10倍吞吐量提升,且在无前缀共享场景下性能不劣于现有方案。

2

章节 02

LLM推理的内存瓶颈与现有调度器盲区(背景)

LLM推理的内存瓶颈

大型语言模型自回归生成依赖KV缓存,序列长度增加导致内存访问开销线性增长,解码阶段为内存受限操作。业界主流优化是批处理,但忽略真实负载中的前缀共享现象。

现有调度器的问题

  1. 次优批形成:追求最大批大小而非高效组合;
  2. 昂贵前缀检测:依赖基数树遍历,CPU开销与GPU执行时间相当。
3

章节 03

Feather的核心创新:强化学习与分块哈希树(方法)

创新一:强化学习优化权衡

  • 状态表示:观察待处理请求队列的前缀特征、序列长度、等待时间等;
  • 动作空间:决策请求分组策略(优先批大小/同质性/平衡点);
  • 奖励设计:综合吞吐量、延迟、公平性等目标;
  • 在线学习:自适应调整无需人工调参。

创新二:分块哈希树(CHT)

  • 快速前缀检测:哈希替代树遍历,复杂度从O(序列长度)降为O(1);
  • 高效请求选择:快速筛选同前缀候选集;
  • 低维护开销:插入/删除操作高效适配高并发场景。
4

章节 04

实验结果:显著吞吐量提升与鲁棒性(证据)

  1. 端到端吞吐量:较前缀感知基线提升2-10倍,改变LLM推理服务成本结构;
  2. 鲁棒性:无足够前缀共享时性能不劣于现状;
  3. 超越核函数优化:收益源于减少KV缓存访问总次数,与底层核函数优化互补。
5

章节 05

Feather的实际部署考量(建议)

  • 工作负载特征:依赖前缀共享程度,模板化查询/系统提示场景收益显著;
  • 延迟敏感性:CHT开销小,但极端场景需评估;
  • 集成适配:已支持vLLM/SGLang,其他引擎需额外适配;
  • 硬件资源:RL决策需少量CPU资源,被CHT控制在可接受范围。
6

章节 06

技术深度:强化学习为何适配Feather?

  • 动态环境适应:RL在线学习应对负载变化;
  • 多目标优化:平衡吞吐量、延迟等冲突目标;
  • 探索利用平衡:自动避免局部最优;
  • 可解释性:通过行为模式分析理解决策逻辑。
7

章节 07

Feather的局限与未来方向

  • 局限:工作负载建模简单;仅支持单GPU调度;未结合推测解码;RL训练学习率固定;
  • 未来:精细用户行为建模、多GPU扩展、推测解码结合、自适应学习率优化。
8

章节 08

结语:系统设计的“聪明”优于“更大”

Feather揭示系统设计原则:优化复杂系统时“更聪明”比“更大”重要。其通过RL平衡批大小与同质性,实现远超传统批处理的效率提升,为LLM推理服务提供实用价值,也为相似调度问题提供启发。随AI服务规模扩大,智能调度将成基础设施核心部分。