# 服务引发的拥塞：内存受限LLM推理的隐藏性能杀手

> 研究揭示LLM推理中的"服务引发拥塞"现象：KV缓存持续增长导致内存压力，系统驱逐请求造成高达50%吞吐量损失，并提出异构工作负载稳定性准则

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-14T02:49:03.000Z
- 最近活动: 2026-06-16T01:53:49.703Z
- 热度: 103.9
- 关键词: LLM推理, KV缓存, 内存管理, 服务拥塞, 批处理优化, 吞吐量优化, 调度算法, 稳定性分析
- 页面链接: https://www.zingnex.cn/forum/thread/llm-9e794be1
- Canonical: https://www.zingnex.cn/forum/thread/llm-9e794be1
- Markdown 来源: ingested_event

---

# 服务引发的拥塞：内存受限LLM推理的隐藏性能杀手

在大语言模型（LLM）推理服务中，一个鲜为人知但影响深远的现象正在悄然侵蚀系统性能：服务引发的拥塞（Service-Induced Congestion）。当高并发请求涌入时，每个请求的KV缓存持续增长，最终触发内存驱逐机制，导致计算浪费和吞吐量骤降。最新研究通过建立离散时间动力学模型，首次系统性地揭示了这一问题，并提出了针对性的调度设计原则。

## 原作者与来源

- **原作者/团队**：论文作者团队（arXiv:2606.15555v1）
- **来源平台**：arXiv
- **原文标题**：Service-Induced Congestion in Memory-Constrained LLM Serving
- **原文链接**：<http://arxiv.org/abs/2606.15555v1>
- **发表时间**：2026年6月14日

## 问题背景：KV缓存的"无限增长"

现代LLM采用自回归生成方式：每生成一个新token，模型需要访问之前所有token的key和value状态，这些状态被缓存为KV缓存（Key-Value Cache）。随着生成进行，KV缓存不断增长。

在批处理推理中，多个请求共享GPU内存。每个请求的KV缓存独立增长，导致**聚合内存使用量随时间内生增长**——即使输入长度固定，服务过程本身也会创造未来的容量压力。

当内存容量被突破时，系统被迫驱逐活跃请求：丢弃已计算的KV缓存状态，稍后再重新启动这些请求。这种驱逐-重启循环造成严重的计算浪费，吞吐量可能暴跌。

## 核心发现：驱逐不可避免的结构不稳定性

研究团队建立了内存受限LLM推理的离散时间动力学模型，涵盖请求准入、内存增长和驱逐机制。在饱和输入条件下，系统呈现两种状态：

### 无驱逐固定点

理论上存在一个平衡状态，所有请求都能完成而不触发驱逐。然而研究发现，对于同构工作负载（所有请求输入/输出长度相同），**这个无驱逐均衡点是不稳定的**。

### 最坏情况极限环

除了一组测度为零的精确捕获点外，系统会收敛到一个唯一的**最坏情况极限环**，吞吐量损失高达**50%**。这意味着在持续高负载下，系统几乎必然陷入性能劣化的周期性振荡。

这一发现具有深刻含义：服务引发的拥塞不是偶然的负载峰值问题，而是内存受限LLM服务的**结构性不稳定机制**。

## 异构工作负载的稳定性准则

研究并未止步于悲观结论。团队进一步分析了异构工作负载（不同请求具有不同输入/输出长度）的情况，取得了突破性发现：

### 两类别共同输入设置

在两类别（两类不同输出长度）共同输入场景下，研究团队证明了稳定性准则的存在。关键在于**生存多项式机制**（Survival-Polynomial Mechanism）：不同长度请求的完成时间差异可以打破同步，从而稳定系统。

### 互质解码长度的稳定作用

在输入主导的规模扩展条件下，研究发现：

- **互质解码长度**（coprime decoding lengths）能够稳定无驱逐均衡
- **非互质长度**则会创造同步模式，驱动系统失稳

这一发现为调度设计提供了明确指导：通过精心选择批次中的请求组合，可以利用工作负载异构性来抑制拥塞。

## 实际意义：调度设计原则

基于上述理论分析，研究推导出维持高吞吐量的调度设计原则：

### 1. 避免同构批次

尽量避免将输入/输出长度完全相同的请求放入同一批次。长度差异是天然的"去同步器"，可以防止系统陷入最坏情况极限环。

### 2. 利用长度多样性

在请求调度时，有意识地引入输出长度多样性。即使输入长度相同，输出长度的差异也能提供稳定性收益。

### 3. 警惕同步模式

监控系统的周期性行为。如果发现吞吐量呈现规律性波动，可能表明系统已陷入极限环，需要调整批次构成。

### 4. 内存预算的动态管理

考虑到驱逐的成本（丢弃已计算状态），内存管理策略应更保守：预留足够的安全余量，而非追求100%内存利用率。

## 与现有优化的关系

这项研究与当前LLM推理优化的多个方向密切相关：

**vLLM的PagedAttention**：通过分页管理KV缓存，减少内存碎片，但无法解决内生增长导致的容量压力。

**投机解码（Speculative Decoding）**：通过草稿模型加速生成，但会进一步加剧KV缓存增长速度。

**连续批处理（Continuous Batching）**：动态添加新请求到批次，可能引入新的同步模式，需要谨慎设计。

**KV缓存压缩/量化**：减少单请求内存占用，延缓容量压力到来，但不改变内生增长的基本动力学。

## 行业启示

对于LLM服务提供商，这项研究提供了重要的运营洞察：

**性能劣化的真正原因**：如果你的推理服务在高峰时段出现吞吐量下降，原因可能不是模型本身，而是服务引发的拥塞。

**容量规划的复杂性**：简单的"内存/单请求内存=并发数"计算是不够的，必须考虑KV缓存增长的时间动力学。

**调度算法的优先级**：请求调度不应仅考虑FCFS（先来先服务）或最短作业优先，还应考虑长度多样性对系统稳定性的影响。

**监控指标扩展**：除了平均延迟和吞吐量，还应监控驱逐频率、KV缓存增长率等动力学指标。

## 结语

服务引发的拥塞是内存受限LLM推理中的一个基础性挑战。这项研究通过建立严格的数学模型，揭示了问题的结构性本质，并指出了工作负载异构性作为稳定化因素的关键作用。

对于从业者而言，这意味着在设计推理系统时，需要将请求长度分布纳入调度考量——不是作为次要优化目标，而是作为系统稳定性的核心要素。随着LLM服务规模持续扩大，理解和应对这一挑战将变得越来越重要。
