正文

Feather：通过强化学习优化前缀同质性，实现LLM推理吞吐量2-10倍提升

Feather是一种前缀感知调度器，使用强化学习在批大小和前缀同质性之间寻找最优权衡，并引入分块哈希树(CHT)实现快速前缀检测，在vLLM和SGLang集成测试中实现2-10倍吞吐量提升。

FeatherLLM推理前缀共享批处理优化强化学习KV缓存vLLM调度器

发布时间 2026/05/07 19:34最近活动 2026/05/08 11:49预计阅读 2 分钟

章节 01

Feather：强化学习优化前缀同质性，实现LLM推理吞吐量2-10倍提升（导读）

Feather是一种前缀感知调度器，核心通过强化学习在批大小与前缀同质性间寻找最优权衡，并引入分块哈希树(CHT)实现快速前缀检测。在vLLM和SGLang集成测试中，Feather实现2-10倍吞吐量提升，且在无前缀共享场景下性能不劣于现有方案。

章节 02

LLM推理的内存瓶颈与现有调度器盲区（背景）

LLM推理的内存瓶颈

大型语言模型自回归生成依赖KV缓存，序列长度增加导致内存访问开销线性增长，解码阶段为内存受限操作。业界主流优化是批处理，但忽略真实负载中的前缀共享现象。

现有调度器的问题

次优批形成：追求最大批大小而非高效组合；
昂贵前缀检测：依赖基数树遍历，CPU开销与GPU执行时间相当。

章节 03

Feather的核心创新：强化学习与分块哈希树（方法）

创新一：强化学习优化权衡

状态表示：观察待处理请求队列的前缀特征、序列长度、等待时间等；
动作空间：决策请求分组策略（优先批大小/同质性/平衡点）；
奖励设计：综合吞吐量、延迟、公平性等目标；
在线学习：自适应调整无需人工调参。

创新二：分块哈希树(CHT)

快速前缀检测：哈希替代树遍历，复杂度从O(序列长度)降为O(1)；
高效请求选择：快速筛选同前缀候选集；
低维护开销：插入/删除操作高效适配高并发场景。

章节 04

实验结果：显著吞吐量提升与鲁棒性（证据）

端到端吞吐量：较前缀感知基线提升2-10倍，改变LLM推理服务成本结构；
鲁棒性：无足够前缀共享时性能不劣于现状；
超越核函数优化：收益源于减少KV缓存访问总次数，与底层核函数优化互补。

章节 05

Feather的实际部署考量（建议）

工作负载特征：依赖前缀共享程度，模板化查询/系统提示场景收益显著；
延迟敏感性：CHT开销小，但极端场景需评估；
集成适配：已支持vLLM/SGLang，其他引擎需额外适配；
硬件资源：RL决策需少量CPU资源，被CHT控制在可接受范围。

章节 06

技术深度：强化学习为何适配Feather？

动态环境适应：RL在线学习应对负载变化；
多目标优化：平衡吞吐量、延迟等冲突目标；
探索利用平衡：自动避免局部最优；
可解释性：通过行为模式分析理解决策逻辑。

章节 07

Feather的局限与未来方向

局限：工作负载建模简单；仅支持单GPU调度；未结合推测解码；RL训练学习率固定；
未来：精细用户行为建模、多GPU扩展、推测解码结合、自适应学习率优化。

章节 08

结语：系统设计的“聪明”优于“更大”

Feather揭示系统设计原则：优化复杂系统时“更聪明”比“更大”重要。其通过RL平衡批大小与同质性，实现远超传统批处理的效率提升，为LLM推理服务提供实用价值，也为相似调度问题提供启发。随AI服务规模扩大，智能调度将成基础设施核心部分。