Zing 论坛

正文

服务引发的拥塞:内存受限LLM推理的隐藏性能杀手

研究揭示LLM推理中的"服务引发拥塞"现象:KV缓存持续增长导致内存压力,系统驱逐请求造成高达50%吞吐量损失,并提出异构工作负载稳定性准则

LLM推理KV缓存内存管理服务拥塞批处理优化吞吐量优化调度算法稳定性分析
发布时间 2026/06/14 10:49最近活动 2026/06/16 09:53预计阅读 3 分钟
服务引发的拥塞:内存受限LLM推理的隐藏性能杀手
1

章节 01

【主楼/导读】服务引发的拥塞:内存受限LLM推理的隐藏性能杀手

服务引发的拥塞:内存受限LLM推理的隐藏性能杀手(导读)

研究揭示LLM推理中"服务引发拥塞"现象:KV缓存持续增长导致内存压力,系统驱逐请求造成高达50%吞吐量损失。通过离散时间动力学模型,首次系统性揭示问题,并提出异构工作负载稳定性准则及调度设计原则。

原作者与来源

  • 作者团队:论文作者团队(arXiv:2606.15555v1)
  • 来源:arXiv
  • 原文标题:Service-Induced Congestion in Memory-Constrained LLM Serving
  • 链接:http://arxiv.org/abs/2606.15555v1
  • 发表时间:2026年6月14日
2

章节 02

【问题背景】KV缓存的内生增长与内存压力

问题背景:KV缓存的内生增长与内存压力

现代LLM采用自回归生成,每生成一个token需访问之前的KV缓存,其随生成过程持续增长。批处理中多个请求共享GPU内存,聚合内存使用量随时间内生增长(即使输入长度固定)。当内存容量不足时,系统被迫驱逐活跃请求,丢弃已计算KV缓存后重启,造成计算浪费和吞吐量骤降。

3

章节 03

【核心发现】同构负载的结构不稳定性与最坏极限环

核心发现:同构负载的结构不稳定性与最坏极限环

研究建立离散时间动力学模型,涵盖请求准入、内存增长和驱逐机制。在饱和输入下:

  1. 无驱逐固定点不稳定:同构工作负载(输入/输出长度相同)的无驱逐均衡点理论存在但不稳定;
  2. 最坏极限环:系统几乎必然收敛到唯一最坏情况极限环,吞吐量损失高达50%。这表明服务引发的拥塞是内存受限LLM服务的结构性不稳定机制。
4

章节 04

【关键突破】异构工作负载的稳定性准则

关键突破:异构工作负载的稳定性准则

针对异构工作负载(不同输入/输出长度),研究取得突破性发现:

  • 两类别场景:证明稳定性准则存在,关键是"生存多项式机制",不同长度请求的完成时间差异打破同步;
  • 互质解码长度:输入主导扩展条件下,互质解码长度能稳定无驱逐均衡,非互质长度则易引发同步失稳。这为调度设计提供指导:利用工作负载异构性抑制拥塞。
5

章节 05

【实践建议】LLM推理调度的设计原则

实践建议:LLM推理调度的设计原则

基于理论分析,推导出维持高吞吐量的调度原则:

  1. 避免同构批次:尽量不将输入/输出长度完全相同的请求放入同一批次;
  2. 利用长度多样性:调度时引入输出长度多样性,即使输入相同也能提升稳定性;
  3. 警惕同步模式:监控周期性吞吐量波动,及时调整批次构成;
  4. 动态内存预算:预留安全余量,不追求100%内存利用率,减少驱逐成本。
6

章节 06

【关联分析】与现有LLM推理优化方向的关系

关联分析:与现有LLM推理优化方向的关系

  • vLLM的PagedAttention:减少内存碎片,但无法解决内生增长的容量压力;
  • 投机解码:加速生成,但加剧KV缓存增长速度;
  • 连续批处理:动态添加请求可能引入新同步模式,需谨慎设计;
  • KV缓存压缩/量化:减少单请求内存占用,延缓容量压力,但不改变内生增长动力学。
7

章节 07

【行业启示】对LLM服务提供商的运营洞察

行业启示:对LLM服务提供商的运营洞察

  • 性能劣化原因:高峰时段吞吐量下降可能源于服务引发的拥塞,而非模型本身;
  • 容量规划:简单的"内存/单请求内存=并发数"计算不足,需考虑KV缓存增长的时间动力学;
  • 调度优先级:调度应兼顾长度多样性对稳定性的影响,而非仅FCFS或最短作业优先;
  • 监控扩展:需监控驱逐频率、KV缓存增长率等动力学指标,补充平均延迟和吞吐量。