Zing 论坛

正文

Mooncake:Kimi背后的高性能LLM推理服务架构深度解析

Moonshot AI开源的Kimi服务底层平台,采用KVCache中心化的分离式架构,通过Transfer Engine实现Prefill与Decode集群解耦,支持RDMA/CXL/NVMe-oF等多种传输协议,已集成vLLM、SGLang、TensorRT-LLM等主流推理框架。

LLM推理KVCacheMooncake分离式架构Transfer EngineRDMAPrefill-DecodevLLMSGLangMoonshot AI
发布时间 2026/04/30 16:12最近活动 2026/04/30 16:25预计阅读 2 分钟
Mooncake:Kimi背后的高性能LLM推理服务架构深度解析
1

章节 01

【导读】Mooncake:Kimi背后的高性能LLM推理服务架构核心解析

Mooncake是Moonshot AI为旗舰大语言模型服务Kimi打造的推理服务平台,核心采用KVCache中心化的分离式架构,通过Transfer Engine实现Prefill与Decode集群解耦,支持RDMA/CXL/NVMe-oF等多种传输协议,已集成vLLM、SGLang、TensorRT-LLM等主流推理框架。该平台开源关键组件并获FAST会议最佳论文奖,是LLM推理基础设施的重要参考。

2

章节 02

项目背景与开源意义

Mooncake是Moonshot AI为Kimi打造的推理平台,2024年6月发布技术报告,2024年11月开源Transfer Engine核心组件,2025年3月开源Mooncake Store。2025年2月获FAST会议最佳论文奖,同年加入PyTorch生态系统,成为官方支持的推理加速组件。

3

章节 03

核心架构:KVCache中心化分离式设计

Mooncake创新性采用KVCache中心化分离式架构:

  1. Prefill-Decode分离:将提示处理(计算密集)与Token生成(内存带宽受限)部署在不同GPU集群,实现资源专精优化、独立扩缩容和灵活调度;
  2. 分离式KVCache池:利用CPU/DRAM/SSD构建跨层存储(热数据GPU显存、温数据DRAM、冷数据SSD),支持请求间缓存复用和弹性扩缩容。
4

章节 04

关键组件:Transfer Engine与分布式存储

  • Transfer Engine:统一传输接口,支持RDMA(8×400Gbps达190GB/s)、NVMe-oF、CXL等多协议,具备拓扑感知路径选择和多NIC带宽聚合能力;
  • Mooncake Store:分布式KVCache存储引擎,支持多副本、条带化并行传输和分层存储,已集成SGLang HiCache、vLLM等框架;
  • P2P Store:去中心化点对点对象共享,用于Checkpoint传输,支持1T参数模型数千GPU间20秒完成更新。
5

章节 05

性能验证与生产表现

  • 模拟长上下文场景吞吐量提升达525%;
  • Kimi真实负载下请求量比基线多75%;
  • 2025年7月支撑K2模型128块H200 GPU部署,实现224k tokens/秒Prefill吞吐、288k tokens/秒Decode吞吐。
6

章节 06

生态集成与行业应用

Mooncake已集成主流推理框架:vLLM(v1版本支持PD分离)、SGLang(HiCache后端及EPD分离)、TensorRT-LLM(KVCache传输后端)等;还支持弹性专家并行(故障检测、动态Token路由)和张量中心生态(全栈张量处理)。

7

章节 07

总结与未来展望

Mooncake代表LLM推理架构演进方向,通过分离式设计和高效传输组件实现吞吐量与资源利用率优化。随着主流框架集成,正成为LLM推理基础设施事实标准之一,为大规模LLM服务提供生产验证的架构参考和开源组件。