章节 01
【主楼/导读】服务引发的拥塞:内存受限LLM推理的隐藏性能杀手
服务引发的拥塞:内存受限LLM推理的隐藏性能杀手(导读)
研究揭示LLM推理中"服务引发拥塞"现象:KV缓存持续增长导致内存压力,系统驱逐请求造成高达50%吞吐量损失。通过离散时间动力学模型,首次系统性揭示问题,并提出异构工作负载稳定性准则及调度设计原则。
原作者与来源:
- 作者团队:论文作者团队(arXiv:2606.15555v1)
- 来源:arXiv
- 原文标题:Service-Induced Congestion in Memory-Constrained LLM Serving
- 链接:http://arxiv.org/abs/2606.15555v1
- 发表时间:2026年6月14日