正文

kvcache-sim：面向大模型推理的多层级KV缓存仿真系统

一个支持HBM/DRAM/SSD三层存储架构的KV缓存仿真器，提供单节点、万卡集群和PD分离三种模拟模式，内置LRU、ARC、Learned等六种驱逐策略，可用于评估LLM推理系统的缓存效率和扩展性。

KV缓存LLM推理缓存仿真Prefill-Decode分离多级存储驱逐策略GPU集群CXL内存

发布时间 2026/04/29 12:45最近活动 2026/04/29 12:49预计阅读 3 分钟

章节 01

导读：kvcache-sim——面向大模型推理的多层级KV缓存仿真系统

kvcache-sim是一款支持HBM/DRAM/SSD三层存储架构的KV缓存仿真器，提供单节点、万卡集群和PD分离三种模拟模式，内置LRU、ARC、Learned等六种驱逐策略，可用于评估LLM推理系统的缓存效率和扩展性。

章节 02

项目背景：LLM推理中KV缓存管理的核心挑战

在LLM推理服务中，KV缓存是提升生成效率的关键技术。随着模型规模扩大和上下文长度增长，KV缓存存储需求急剧膨胀（如70B模型处理8K上下文时单请求KV缓存可达数GB甚至数十GB）。kvcache-sim应运而生，支持单机多层级存储、万卡集群及PD分离部署模式，为研究者和工程师提供全面的缓存策略评估工具。

章节 03

系统架构：三种仿真模式覆盖全场景

单节点模式

模拟GPU服务器架构，支持4个worker并行，存储层级为HBM→DRAM→SSD，内置LRU、ARC、SessionPrefetch、SelectiveWrite、Learned、Belady Oracle六种驱逐策略。

万卡集群模式

模拟10240张GPU的大规模部署（160机架×64GPU/机架），引入EIC共享内存池，通过CXL/RDMA实现机架内缓存共享，精细建模机架内（3μs）、跨机架（15μs）、SSD访问（200μs）延迟，采用前缀感知路由策略提升命中率。

PD分离模式

实现Prefill-Decode解耦架构：PrefillNode配备RadixTree前缀缓存，DecodeNode接收RDMA传输的KV缓存，支持push/pull/pull_on_demand传输策略，双路由层优化负载均衡与延迟。

章节 04

性能验证：指标、工作负载与校准

关键性能指标

以H100运行70B模型为例：Prefill约0.35ms/token，Decode约83.6ms/token，64序列批处理Decode约93.6ms/step；KV传输首块约6.7ms，完整8K提示词约215ms。

真实工作负载支持

兼容BurstGPT、Azure LLM Inference Trace、Mooncake Traces、SplitwiseSim等生产级轨迹数据集，自动处理格式转换。

校准与集成

支持通过overlay文件注入校准参数（如H100_70b_reference.yaml），可集成Vidur、Accel-Sim、Ramulator2等外部仿真器。

章节 05

典型应用场景：助力关键设计决策

P:D比例选择：找到最优Prefill/Decode GPU配比
前缀缓存容量规划：确定KV缓存与模型权重的最佳比例
互联带宽评估：比较不同RDMA配置对传输开销的影响
驱逐策略选型：根据工作负载选择合适策略
EIC容量规划：配置每机架共享CXL内存
上下文长度影响：评估4K/32K/128K上下文对缓存的影响

章节 06

技术亮点：模块化设计与高效实现

代码结构清晰：sim/（核心逻辑）、trace/（轨迹处理）、learned/（机器学习策略）、experiments/（实验脚本）
RadixTree前缀缓存：采用引用计数实现块共享与回收，与vLLM等生产系统理念一致
可插拔策略：支持六种驱逐策略组合，易于扩展

章节 07

总结与展望：功能完备的KV缓存仿真平台

kvcache-sim覆盖单节点优化、万卡集群扩展、PD分离架构建模等LLM服务热门方向，为研究者和工程师提供开源工具（MIT许可证），代码结构清晰、文档完善，便于二次开发与实验复现。