Zing 论坛

正文

NetKV:面向分离式LLM推理的网络感知解码实例选择

本文提出NetKV系统,通过引入网络成本预测器优化分离式LLM推理中的KV缓存传输调度,在64-GPU模拟器上将首token时间降低21.2%,SLO达成率提升20.1个百分点。

LLM推理分离式架构KV缓存网络调度TTFT优化数据中心网络
发布时间 2026/06/03 01:06最近活动 2026/06/03 13:55预计阅读 2 分钟
NetKV:面向分离式LLM推理的网络感知解码实例选择
1

章节 01

【导读】NetKV:网络感知优化分离式LLM推理的KV缓存调度

本文提出NetKV系统,针对分离式LLM推理中的KV缓存传输调度问题,引入网络成本预测器优化解码实例选择。在64-GPU模拟器上,NetKV将首token时间(TTFT)降低21.2%,服务等级目标(SLO)达成率提升20.1个百分点,且无需修改现有基础设施。

2

章节 02

背景:分离式LLM推理架构的兴起与挑战

随着LLM规模扩大,分离式推理架构兴起,将推理拆分为预填充(Prefill,计算密集)和解码(Decode,内存密集)两阶段,可独立扩展资源。但KV缓存需在数据中心网络中从Prefill实例传输到Decode实例,这带来了新的挑战。

3

章节 03

问题:现有调度器忽视的网络瓶颈

现有调度器主要考虑计算负载和前缀缓存局部性,却忽略了Prefill与Decode实例间的拓扑距离和动态网络拥塞。随着上下文长度增长,KV缓存大小线性增加(长上下文可达数十GB),网络传输延迟成为TTFT的显著组成部分。论文证明:忽略网络因素会使纯缓存感知调度在长上下文场景下变得任意次优。

4

章节 04

方法:NetKV系统的核心架构与算法

NetKV引入轻量级网络成本预测器,考虑拓扑距离、链路带宽和动态拥塞,提供Prefill-Decode实例对的传输成本估计。采用O(|D|)贪婪调度算法,结合计算负载、缓存局部性和网络成本选择最优解码实例。理论证明其层级排名对陈旧遥测具有鲁棒性。

5

章节 05

证据:实验评估结果与关键发现

在64-GPU四级胖树拓扑模拟器(基于Mooncake traces)上,NetKV相比轮询调度平均TTFT降低21.2%,SLO达成率提升20.1个百分点;相比缓存+负载感知调度TTFT降低17.6%。Token间隔时间(TBT)开销<0.5ms,且无需修改现有传输层、推理引擎或硬件。

6

章节 06

理论贡献:忽略网络因素的次优性证明

论文证明:随着上下文长度增长,纯缓存感知调度与最优调度之间的性能差距可任意大。这为网络感知调度的必要性提供了理论基础,表明网络因素是长上下文场景下的核心考虑因素。

7

章节 07

实践启示:对架构师、运维与研究者的建议

  • 架构师:需将网络拓扑纳入调度策略,采用轻量级接口设计,利用算法鲁棒性应对非实时信息。
  • 运维工程师:监控Prefill-Decode实例间网络路径延迟,实施动态调度策略,规划拓扑时考虑通信模式。
  • 研究者:参考鲁棒性分析方法论,探索多目标优化(TTFT/TBT/吞吐量)及异构网络环境应用。
8

章节 08

局限与未来研究方向

局限:64-GPU规模需扩展至超大规模部署,异构硬件和极端动态工作负载下的表现待验证。 未来方向:结合强化学习实现自适应调度,探索预测性调度,研究跨数据中心分离式推理场景。