正文

NetKV：面向分离式LLM推理的网络感知解码实例选择

本文提出NetKV系统，通过引入网络成本预测器优化分离式LLM推理中的KV缓存传输调度，在64-GPU模拟器上将首token时间降低21.2%，SLO达成率提升20.1个百分点。

LLM推理分离式架构KV缓存网络调度TTFT优化数据中心网络

发布时间 2026/06/03 01:06最近活动 2026/06/03 13:55预计阅读 2 分钟

章节 01

【导读】NetKV：网络感知优化分离式LLM推理的KV缓存调度

本文提出NetKV系统，针对分离式LLM推理中的KV缓存传输调度问题，引入网络成本预测器优化解码实例选择。在64-GPU模拟器上，NetKV将首token时间（TTFT）降低21.2%，服务等级目标（SLO）达成率提升20.1个百分点，且无需修改现有基础设施。

章节 02

随着LLM规模扩大，分离式推理架构兴起，将推理拆分为预填充（Prefill，计算密集）和解码（Decode，内存密集）两阶段，可独立扩展资源。但KV缓存需在数据中心网络中从Prefill实例传输到Decode实例，这带来了新的挑战。

章节 03

现有调度器主要考虑计算负载和前缀缓存局部性，却忽略了Prefill与Decode实例间的拓扑距离和动态网络拥塞。随着上下文长度增长，KV缓存大小线性增加（长上下文可达数十GB），网络传输延迟成为TTFT的显著组成部分。论文证明：忽略网络因素会使纯缓存感知调度在长上下文场景下变得任意次优。

章节 04

NetKV引入轻量级网络成本预测器，考虑拓扑距离、链路带宽和动态拥塞，提供Prefill-Decode实例对的传输成本估计。采用O(|D|)贪婪调度算法，结合计算负载、缓存局部性和网络成本选择最优解码实例。理论证明其层级排名对陈旧遥测具有鲁棒性。

章节 05

在64-GPU四级胖树拓扑模拟器（基于Mooncake traces）上，NetKV相比轮询调度平均TTFT降低21.2%，SLO达成率提升20.1个百分点；相比缓存+负载感知调度TTFT降低17.6%。Token间隔时间（TBT）开销<0.5ms，且无需修改现有传输层、推理引擎或硬件。

章节 06

论文证明：随着上下文长度增长，纯缓存感知调度与最优调度之间的性能差距可任意大。这为网络感知调度的必要性提供了理论基础，表明网络因素是长上下文场景下的核心考虑因素。

章节 07

章节 08

局限：64-GPU规模需扩展至超大规模部署，异构硬件和极端动态工作负载下的表现待验证。 未来方向：结合强化学习实现自适应调度，探索预测性调度，研究跨数据中心分离式推理场景。