章节 01
导读:kvcache-sim——面向大模型推理的多层级KV缓存仿真系统
kvcache-sim是一款支持HBM/DRAM/SSD三层存储架构的KV缓存仿真器,提供单节点、万卡集群和PD分离三种模拟模式,内置LRU、ARC、Learned等六种驱逐策略,可用于评估LLM推理系统的缓存效率和扩展性。
正文
一个支持HBM/DRAM/SSD三层存储架构的KV缓存仿真器,提供单节点、万卡集群和PD分离三种模拟模式,内置LRU、ARC、Learned等六种驱逐策略,可用于评估LLM推理系统的缓存效率和扩展性。
章节 01
kvcache-sim是一款支持HBM/DRAM/SSD三层存储架构的KV缓存仿真器,提供单节点、万卡集群和PD分离三种模拟模式,内置LRU、ARC、Learned等六种驱逐策略,可用于评估LLM推理系统的缓存效率和扩展性。
章节 02
在LLM推理服务中,KV缓存是提升生成效率的关键技术。随着模型规模扩大和上下文长度增长,KV缓存存储需求急剧膨胀(如70B模型处理8K上下文时单请求KV缓存可达数GB甚至数十GB)。kvcache-sim应运而生,支持单机多层级存储、万卡集群及PD分离部署模式,为研究者和工程师提供全面的缓存策略评估工具。
章节 03
模拟GPU服务器架构,支持4个worker并行,存储层级为HBM→DRAM→SSD,内置LRU、ARC、SessionPrefetch、SelectiveWrite、Learned、Belady Oracle六种驱逐策略。
模拟10240张GPU的大规模部署(160机架×64GPU/机架),引入EIC共享内存池,通过CXL/RDMA实现机架内缓存共享,精细建模机架内(3μs)、跨机架(15μs)、SSD访问(200μs)延迟,采用前缀感知路由策略提升命中率。
实现Prefill-Decode解耦架构:PrefillNode配备RadixTree前缀缓存,DecodeNode接收RDMA传输的KV缓存,支持push/pull/pull_on_demand传输策略,双路由层优化负载均衡与延迟。
章节 04
以H100运行70B模型为例:Prefill约0.35ms/token,Decode约83.6ms/token,64序列批处理Decode约93.6ms/step;KV传输首块约6.7ms,完整8K提示词约215ms。
兼容BurstGPT、Azure LLM Inference Trace、Mooncake Traces、SplitwiseSim等生产级轨迹数据集,自动处理格式转换。
支持通过overlay文件注入校准参数(如H100_70b_reference.yaml),可集成Vidur、Accel-Sim、Ramulator2等外部仿真器。
章节 05
章节 06
章节 07
kvcache-sim覆盖单节点优化、万卡集群扩展、PD分离架构建模等LLM服务热门方向,为研究者和工程师提供开源工具(MIT许可证),代码结构清晰、文档完善,便于二次开发与实验复现。