正文

服务引发的拥塞：内存受限LLM推理的隐藏性能杀手

研究揭示LLM推理中的"服务引发拥塞"现象：KV缓存持续增长导致内存压力，系统驱逐请求造成高达50%吞吐量损失，并提出异构工作负载稳定性准则

LLM推理KV缓存内存管理服务拥塞批处理优化吞吐量优化调度算法稳定性分析

发布时间 2026/06/14 10:49最近活动 2026/06/16 09:53预计阅读 3 分钟

章节 01

【主楼/导读】服务引发的拥塞：内存受限LLM推理的隐藏性能杀手

服务引发的拥塞：内存受限LLM推理的隐藏性能杀手（导读）

研究揭示LLM推理中"服务引发拥塞"现象：KV缓存持续增长导致内存压力，系统驱逐请求造成高达50%吞吐量损失。通过离散时间动力学模型，首次系统性揭示问题，并提出异构工作负载稳定性准则及调度设计原则。

原作者与来源：

作者团队：论文作者团队（arXiv:2606.15555v1）
来源：arXiv
原文标题：Service-Induced Congestion in Memory-Constrained LLM Serving
链接：http://arxiv.org/abs/2606.15555v1
发表时间：2026年6月14日

章节 02

【问题背景】KV缓存的内生增长与内存压力

问题背景：KV缓存的内生增长与内存压力

现代LLM采用自回归生成，每生成一个token需访问之前的KV缓存，其随生成过程持续增长。批处理中多个请求共享GPU内存，聚合内存使用量随时间内生增长（即使输入长度固定）。当内存容量不足时，系统被迫驱逐活跃请求，丢弃已计算KV缓存后重启，造成计算浪费和吞吐量骤降。

章节 03

【核心发现】同构负载的结构不稳定性与最坏极限环

核心发现：同构负载的结构不稳定性与最坏极限环

研究建立离散时间动力学模型，涵盖请求准入、内存增长和驱逐机制。在饱和输入下：

无驱逐固定点不稳定：同构工作负载（输入/输出长度相同）的无驱逐均衡点理论存在但不稳定；
最坏极限环：系统几乎必然收敛到唯一最坏情况极限环，吞吐量损失高达50%。这表明服务引发的拥塞是内存受限LLM服务的结构性不稳定机制。

章节 04

【关键突破】异构工作负载的稳定性准则

关键突破：异构工作负载的稳定性准则

针对异构工作负载（不同输入/输出长度），研究取得突破性发现：

两类别场景：证明稳定性准则存在，关键是"生存多项式机制"，不同长度请求的完成时间差异打破同步；
互质解码长度：输入主导扩展条件下，互质解码长度能稳定无驱逐均衡，非互质长度则易引发同步失稳。这为调度设计提供指导：利用工作负载异构性抑制拥塞。

章节 05

【实践建议】LLM推理调度的设计原则

实践建议：LLM推理调度的设计原则

基于理论分析，推导出维持高吞吐量的调度原则：

避免同构批次：尽量不将输入/输出长度完全相同的请求放入同一批次；
利用长度多样性：调度时引入输出长度多样性，即使输入相同也能提升稳定性；
警惕同步模式：监控周期性吞吐量波动，及时调整批次构成；
动态内存预算：预留安全余量，不追求100%内存利用率，减少驱逐成本。

章节 06

【关联分析】与现有LLM推理优化方向的关系

关联分析：与现有LLM推理优化方向的关系

vLLM的PagedAttention：减少内存碎片，但无法解决内生增长的容量压力；
投机解码：加速生成，但加剧KV缓存增长速度；
连续批处理：动态添加请求可能引入新同步模式，需谨慎设计；
KV缓存压缩/量化：减少单请求内存占用，延缓容量压力，但不改变内生增长动力学。

章节 07

【行业启示】对LLM服务提供商的运营洞察

行业启示：对LLM服务提供商的运营洞察

性能劣化原因：高峰时段吞吐量下降可能源于服务引发的拥塞，而非模型本身；
容量规划：简单的"内存/单请求内存=并发数"计算不足，需考虑KV缓存增长的时间动力学；
调度优先级：调度应兼顾长度多样性对稳定性的影响，而非仅FCFS或最短作业优先；
监控扩展：需监控驱逐频率、KV缓存增长率等动力学指标，补充平均延迟和吞吐量。