正文

Mooncake：Kimi背后的高性能LLM推理服务架构深度解析

Moonshot AI开源的Kimi服务底层平台，采用KVCache中心化的分离式架构，通过Transfer Engine实现Prefill与Decode集群解耦，支持RDMA/CXL/NVMe-oF等多种传输协议，已集成vLLM、SGLang、TensorRT-LLM等主流推理框架。

LLM推理KVCacheMooncake分离式架构Transfer EngineRDMAPrefill-DecodevLLMSGLangMoonshot AI

发布时间 2026/04/30 16:12最近活动 2026/04/30 16:25预计阅读 2 分钟

章节 01

【导读】Mooncake：Kimi背后的高性能LLM推理服务架构核心解析

Mooncake是Moonshot AI为旗舰大语言模型服务Kimi打造的推理服务平台，核心采用KVCache中心化的分离式架构，通过Transfer Engine实现Prefill与Decode集群解耦，支持RDMA/CXL/NVMe-oF等多种传输协议，已集成vLLM、SGLang、TensorRT-LLM等主流推理框架。该平台开源关键组件并获FAST会议最佳论文奖，是LLM推理基础设施的重要参考。

章节 02

项目背景与开源意义

Mooncake是Moonshot AI为Kimi打造的推理平台，2024年6月发布技术报告，2024年11月开源Transfer Engine核心组件，2025年3月开源Mooncake Store。2025年2月获FAST会议最佳论文奖，同年加入PyTorch生态系统，成为官方支持的推理加速组件。

章节 03

核心架构：KVCache中心化分离式设计

Mooncake创新性采用KVCache中心化分离式架构：

Prefill-Decode分离：将提示处理（计算密集）与Token生成（内存带宽受限）部署在不同GPU集群，实现资源专精优化、独立扩缩容和灵活调度；
分离式KVCache池：利用CPU/DRAM/SSD构建跨层存储（热数据GPU显存、温数据DRAM、冷数据SSD），支持请求间缓存复用和弹性扩缩容。

章节 04

关键组件：Transfer Engine与分布式存储

Transfer Engine：统一传输接口，支持RDMA（8×400Gbps达190GB/s）、NVMe-oF、CXL等多协议，具备拓扑感知路径选择和多NIC带宽聚合能力；
Mooncake Store：分布式KVCache存储引擎，支持多副本、条带化并行传输和分层存储，已集成SGLang HiCache、vLLM等框架；
P2P Store：去中心化点对点对象共享，用于Checkpoint传输，支持1T参数模型数千GPU间20秒完成更新。

章节 05

性能验证与生产表现

模拟长上下文场景吞吐量提升达525%；
Kimi真实负载下请求量比基线多75%；
2025年7月支撑K2模型128块H200 GPU部署，实现224k tokens/秒Prefill吞吐、288k tokens/秒Decode吞吐。

章节 06

生态集成与行业应用

Mooncake已集成主流推理框架：vLLM（v1版本支持PD分离）、SGLang（HiCache后端及EPD分离）、TensorRT-LLM（KVCache传输后端）等；还支持弹性专家并行（故障检测、动态Token路由）和张量中心生态（全栈张量处理）。

章节 07

总结与未来展望

Mooncake代表LLM推理架构演进方向，通过分离式设计和高效传输组件实现吞吐量与资源利用率优化。随着主流框架集成，正成为LLM推理基础设施事实标准之一，为大规模LLM服务提供生产验证的架构参考和开源组件。

Mooncake：Kimi背后的高性能LLM推理服务架构深度解析

【导读】Mooncake：Kimi背后的高性能LLM推理服务架构核心解析

项目背景与开源意义

核心架构：KVCache中心化分离式设计

关键组件：Transfer Engine与分布式存储

性能验证与生产表现

生态集成与行业应用

总结与未来展望

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现