Zing 论坛

正文

kvcache-sim:面向大模型推理的多层级KV缓存仿真系统

一个支持HBM/DRAM/SSD三层存储架构的KV缓存仿真器,提供单节点、万卡集群和PD分离三种模拟模式,内置LRU、ARC、Learned等六种驱逐策略,可用于评估LLM推理系统的缓存效率和扩展性。

KV缓存LLM推理缓存仿真Prefill-Decode分离多级存储驱逐策略GPU集群CXL内存
发布时间 2026/04/29 12:45最近活动 2026/04/29 12:49预计阅读 3 分钟
kvcache-sim:面向大模型推理的多层级KV缓存仿真系统
1

章节 01

导读:kvcache-sim——面向大模型推理的多层级KV缓存仿真系统

kvcache-sim是一款支持HBM/DRAM/SSD三层存储架构的KV缓存仿真器,提供单节点、万卡集群和PD分离三种模拟模式,内置LRU、ARC、Learned等六种驱逐策略,可用于评估LLM推理系统的缓存效率和扩展性。

2

章节 02

项目背景:LLM推理中KV缓存管理的核心挑战

在LLM推理服务中,KV缓存是提升生成效率的关键技术。随着模型规模扩大和上下文长度增长,KV缓存存储需求急剧膨胀(如70B模型处理8K上下文时单请求KV缓存可达数GB甚至数十GB)。kvcache-sim应运而生,支持单机多层级存储、万卡集群及PD分离部署模式,为研究者和工程师提供全面的缓存策略评估工具。

3

章节 03

系统架构:三种仿真模式覆盖全场景

单节点模式

模拟GPU服务器架构,支持4个worker并行,存储层级为HBM→DRAM→SSD,内置LRU、ARC、SessionPrefetch、SelectiveWrite、Learned、Belady Oracle六种驱逐策略。

万卡集群模式

模拟10240张GPU的大规模部署(160机架×64GPU/机架),引入EIC共享内存池,通过CXL/RDMA实现机架内缓存共享,精细建模机架内(3μs)、跨机架(15μs)、SSD访问(200μs)延迟,采用前缀感知路由策略提升命中率。

PD分离模式

实现Prefill-Decode解耦架构:PrefillNode配备RadixTree前缀缓存,DecodeNode接收RDMA传输的KV缓存,支持push/pull/pull_on_demand传输策略,双路由层优化负载均衡与延迟。

4

章节 04

性能验证:指标、工作负载与校准

关键性能指标

以H100运行70B模型为例:Prefill约0.35ms/token,Decode约83.6ms/token,64序列批处理Decode约93.6ms/step;KV传输首块约6.7ms,完整8K提示词约215ms。

真实工作负载支持

兼容BurstGPT、Azure LLM Inference Trace、Mooncake Traces、SplitwiseSim等生产级轨迹数据集,自动处理格式转换。

校准与集成

支持通过overlay文件注入校准参数(如H100_70b_reference.yaml),可集成Vidur、Accel-Sim、Ramulator2等外部仿真器。

5

章节 05

典型应用场景:助力关键设计决策

  1. P:D比例选择:找到最优Prefill/Decode GPU配比
  2. 前缀缓存容量规划:确定KV缓存与模型权重的最佳比例
  3. 互联带宽评估:比较不同RDMA配置对传输开销的影响
  4. 驱逐策略选型:根据工作负载选择合适策略
  5. EIC容量规划:配置每机架共享CXL内存
  6. 上下文长度影响:评估4K/32K/128K上下文对缓存的影响
6

章节 06

技术亮点:模块化设计与高效实现

  • 代码结构清晰:sim/(核心逻辑)、trace/(轨迹处理)、learned/(机器学习策略)、experiments/(实验脚本)
  • RadixTree前缀缓存:采用引用计数实现块共享与回收,与vLLM等生产系统理念一致
  • 可插拔策略:支持六种驱逐策略组合,易于扩展
7

章节 07

总结与展望:功能完备的KV缓存仿真平台

kvcache-sim覆盖单节点优化、万卡集群扩展、PD分离架构建模等LLM服务热门方向,为研究者和工程师提供开源工具(MIT许可证),代码结构清晰、文档完善,便于二次开发与实验复现。