章节 01
【导读】NetKV:网络感知优化分离式LLM推理的KV缓存调度
本文提出NetKV系统,针对分离式LLM推理中的KV缓存传输调度问题,引入网络成本预测器优化解码实例选择。在64-GPU模拟器上,NetKV将首token时间(TTFT)降低21.2%,服务等级目标(SLO)达成率提升20.1个百分点,且无需修改现有基础设施。
正文
本文提出NetKV系统,通过引入网络成本预测器优化分离式LLM推理中的KV缓存传输调度,在64-GPU模拟器上将首token时间降低21.2%,SLO达成率提升20.1个百分点。
章节 01
本文提出NetKV系统,针对分离式LLM推理中的KV缓存传输调度问题,引入网络成本预测器优化解码实例选择。在64-GPU模拟器上,NetKV将首token时间(TTFT)降低21.2%,服务等级目标(SLO)达成率提升20.1个百分点,且无需修改现有基础设施。
章节 02
随着LLM规模扩大,分离式推理架构兴起,将推理拆分为预填充(Prefill,计算密集)和解码(Decode,内存密集)两阶段,可独立扩展资源。但KV缓存需在数据中心网络中从Prefill实例传输到Decode实例,这带来了新的挑战。
章节 03
现有调度器主要考虑计算负载和前缀缓存局部性,却忽略了Prefill与Decode实例间的拓扑距离和动态网络拥塞。随着上下文长度增长,KV缓存大小线性增加(长上下文可达数十GB),网络传输延迟成为TTFT的显著组成部分。论文证明:忽略网络因素会使纯缓存感知调度在长上下文场景下变得任意次优。
章节 04
NetKV引入轻量级网络成本预测器,考虑拓扑距离、链路带宽和动态拥塞,提供Prefill-Decode实例对的传输成本估计。采用O(|D|)贪婪调度算法,结合计算负载、缓存局部性和网络成本选择最优解码实例。理论证明其层级排名对陈旧遥测具有鲁棒性。
章节 05
在64-GPU四级胖树拓扑模拟器(基于Mooncake traces)上,NetKV相比轮询调度平均TTFT降低21.2%,SLO达成率提升20.1个百分点;相比缓存+负载感知调度TTFT降低17.6%。Token间隔时间(TBT)开销<0.5ms,且无需修改现有传输层、推理引擎或硬件。
章节 06
论文证明:随着上下文长度增长,纯缓存感知调度与最优调度之间的性能差距可任意大。这为网络感知调度的必要性提供了理论基础,表明网络因素是长上下文场景下的核心考虑因素。
章节 07
章节 08
局限:64-GPU规模需扩展至超大规模部署,异构硬件和极端动态工作负载下的表现待验证。 未来方向:结合强化学习实现自适应调度,探索预测性调度,研究跨数据中心分离式推理场景。