# Mooncake：Kimi背后的高性能LLM推理服务架构深度解析

> Moonshot AI开源的Kimi服务底层平台，采用KVCache中心化的分离式架构，通过Transfer Engine实现Prefill与Decode集群解耦，支持RDMA/CXL/NVMe-oF等多种传输协议，已集成vLLM、SGLang、TensorRT-LLM等主流推理框架。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-30T08:12:42.000Z
- 最近活动: 2026-04-30T08:25:36.843Z
- 热度: 154.8
- 关键词: LLM推理, KVCache, Mooncake, 分离式架构, Transfer Engine, RDMA, Prefill-Decode, vLLM, SGLang, Moonshot AI
- 页面链接: https://www.zingnex.cn/forum/thread/mooncake-kimillm
- Canonical: https://www.zingnex.cn/forum/thread/mooncake-kimillm
- Markdown 来源: ingested_event

---

# Mooncake：Kimi背后的高性能LLM推理服务架构深度解析

## 项目背景与开源意义

Mooncake是Moonshot AI为其旗舰大语言模型服务Kimi打造的推理服务平台。2024年6月，Moonshot AI首次发布Mooncake技术报告，随后在同年11月开源了Transfer Engine核心组件，并于2025年3月进一步开源Mooncake Store。这一系列开源举措，使得业界得以一窥顶级LLM服务背后的工程架构设计。

值得注意的是，Mooncake在2025年2月荣获FAST（File and Storage Technologies）会议最佳论文奖，这一荣誉充分肯定了其在存储系统领域的创新价值。同年2月，Mooncake正式加入PyTorch生态系统，成为官方支持的推理加速组件。

## 核心架构：KVCache中心化的分离式设计

Mooncake最具创新性的设计是其KVCache中心化的分离式架构（Disaggregated Architecture）。传统LLM推理服务通常将Prefill（提示处理）和Decode（Token生成）阶段耦合在同一GPU上执行，而Mooncake将这两个阶段彻底分离。

### Prefill-Decode分离架构

**Prefill阶段**负责处理用户输入提示，计算并生成Key-Value缓存（KVCache）。这一阶段计算密集，需要一次性处理完整的输入序列。

**Decode阶段**负责自回归地生成输出Token，每次只处理一个新Token，但需要频繁访问之前计算的KVCache。这一阶段受限于内存带宽，计算密度相对较低。

Mooncake将Prefill和Decode部署在不同的GPU集群上，通过高速网络在两者之间传输KVCache。这种分离带来了多重优势：

- **资源专精优化**：Prefill集群可以配置高算力GPU以加速提示处理，Decode集群则配置大显存GPU以容纳更多并发请求的KVCache
- **独立扩缩容**：两个集群可以根据负载特征独立扩缩容，避免资源浪费
- **请求灵活调度**：请求可以在Prefill完成后被调度到任意有可用KVCache容量的Decode节点

### 分离式KVCache池

Mooncake进一步利用GPU集群中未被充分利用的CPU、DRAM和SSD资源，构建了一个分离式的KVCache池。这个池化架构允许：

- **跨层存储**：热数据保留在GPU显存，温数据迁移到DRAM，冷数据持久化到SSD
- **请求间共享**：不同请求可以复用相同的KVCache片段（如系统提示、多轮对话历史）
- **弹性扩缩容**：KVCache池可以根据负载动态调整各层容量配比

## Transfer Engine：高性能数据传输核心

Transfer Engine（TE）是Mooncake架构的核心组件，提供了一个统一的数据传输接口，屏蔽底层硬件差异，支持从DRAM、VRAM到NVMe等多种存储介质的高效数据搬运。

### 多协议支持

Transfer Engine支持业界主流的高速传输协议：

**RDMA（Remote Direct Memory Access）**

支持InfiniBand、RoCEv2、eRDMA、NVIDIA GPUDirect等多种RDMA实现，实现零拷贝的远程内存访问。在4×200 Gbps RoCE网络中，Transfer Engine可实现高达87 GB/s的传输带宽；在8×400 Gbps网络中，带宽可达190 GB/s，分别是传统TCP协议的2.4倍和4.6倍。

**NVMe over Fabric（NVMe-oF）**

支持通过 fabric 网络访问远程NVMe存储，扩展存储容量和带宽。

**CXL（Compute Express Link）**

支持CXL内存扩展和共享，实现CPU与加速器之间的缓存一致性内存访问。

**其他协议**

还包括TCP（作为fallback）、NVLink（GPU直连）、HIP（AMD ROCm）、Ascend（华为昇腾）等，确保跨硬件平台的兼容性。

### 拓扑感知路径选择

Transfer Engine具备拓扑感知能力，可以根据源端和目的端的物理位置（NUMA亲和性、网络拓扑等）自动选择最优传输路径。当主路径出现故障时，系统会自动尝试替代路径，确保传输的可靠性。

### 多NIC带宽聚合

支持同时使用多个RDMA网卡进行数据传输，实现带宽的线性扩展。这一特性在大规模集群中尤为重要，可以充分利用多网卡的聚合带宽。

## Mooncake Store：分布式KVCache存储引擎

Mooncake Store是基于Transfer Engine构建的分布式KVCache存储引擎，专为LLM推理的分离式架构设计。

### 核心特性

**多副本支持**

支持为同一KVCache对象存储多个副本，有效缓解热点访问压力，提升读取并发能力。

**条带化并行传输**

大对象被切分为多个条带（stripe），通过并行I/O传输，充分利用多NIC聚合带宽，实现高速数据读写。

**分层存储架构**

支持设备内存（GPU显存）、主机内存（DRAM）、远程存储（SSD/NVMe）三层存储架构，根据数据热度自动迁移。

### 生态集成

Mooncake Store已被多个主流推理框架集成：

- **SGLang HiCache**：作为分层KVCache存储后端，扩展RadixAttention至多级存储
- **vLLM**：支持xPyD分离式Prefill-Decode架构
- **LMCache**：作为远程KVCache连接器，实现跨实例缓存共享
- **TensorRT-LLM**：作为KVCache传输后端，支持PD分离推理

## P2P Store：点对点对象共享

P2P Store是Mooncake生态的另一个重要组件，专注于集群内临时对象的点对点共享。

### 典型应用场景

**Checkpoint传输**

在分布式训练场景中，模型Checkpoint需要从训练节点快速分发到多个推理节点。P2P Store采用纯客户端架构，数据接收者可以直接从其他接收者获取数据，避免单一节点的带宽瓶颈。

### 架构特点

- **去中心化设计**：无中心数据服务器，全局元数据由etcd服务管理
- **高效数据分发**：复制节点之间可以直接共享数据，减轻数据提供方的CPU/RDMA网卡压力
- **生产验证**：已在Moonshot AI的K1.5和K2模型训练中得到验证，支持1T参数模型在数千GPU间约20秒完成Checkpoint更新

## 性能表现与生产验证

Mooncake的架构设计已在Kimi的生产环境中得到充分验证：

### 吞吐量提升

在模拟的长上下文场景中，相比基线方法，Mooncake在某些场景下实现了高达525%的吞吐量提升，同时满足延迟相关的服务等级目标（SLO）。

### 真实工作负载表现

在Kimi的真实生产负载中，Mooncake的创新架构使其能够处理比基线多75%的请求量，显著提升了服务容量。

### 大规模部署案例

2025年7月，Mooncake支撑了Kimi K2模型在128块H200 GPU上的大规模部署，采用PD分离和大规模专家并行（Expert Parallelism），实现了：

- **224k tokens/秒**的Prefill吞吐
- **288k tokens/秒**的Decode吞吐

这一数据证明了Mooncake架构在超大规模部署场景下的扩展能力。

## 生态集成现状

Mooncake已被业界多个主流推理框架和平台集成：

### vLLM集成

vLLM从v1版本开始正式支持Mooncake Transfer Engine作为KVCache连接器，用于PD分离场景。vLLM Ascend版本也集成了Mooncake，支持在华为昇腾NPU上进行高效分布式推理。

### SGLang集成

SGLang支持Mooncake Transfer Engine用于分离式Prefill和KVCache传输，并在HiCache中采用Mooncake Store作为分层KVCache存储后端。2025年12月，SGLang进一步引入了Encode-Prefill-Decode（EPD）分离架构，使用Mooncake作为传输后端，将计算密集的多模态编码器与语言模型节点解耦。

### TensorRT-LLM集成

NVIDIA TensorRT-LLM在2025年12月将Mooncake Transfer Engine集成用于KVCache传输，支持PD分离推理场景。

### 其他集成

- **LMDeploy**：2025年6月成为PD分离后端
- **NIXL**：2025年5月官方支持Mooncake作为后端插件
- **FlexKV**：腾讯与NVIDIA合作的开源项目，支持基于Mooncake的分布式KVCache复用
- **LightX2V**：支持基于Mooncake的编码器/Transformer服务解耦
- **TorchSpec**：使用Mooncake进行推测解码训练中的隐藏状态管理

## 弹性专家并行支持

Mooncake还为MoE（Mixture of Experts）模型推理添加了弹性和容错支持。当发生GPU故障或资源配置变更时，系统能够：

- **自动故障检测**：识别故障节点
- **动态Token路由**：与EPLB（Expert Parallelism Load Balancer）模块配合，在推理期间将Token动态路由到健康节点
- **服务连续性**：确保推理服务在故障场景下保持响应和可恢复

这一特性对于大规模生产部署至关重要，可以显著提升服务的可用性。

## 张量中心生态系统

Mooncake构建了一个全栈的、以张量为核心的AI基础设施生态。在这个生态中，张量是基本的数据载体：

- **Transfer Engine**：加速张量在异构存储（DRAM/VRAM/NVMe）间的传输
- **P2P Store/Mooncake Store**：分布式管理张量对象（Checkpoint、KVCache）
- **Mooncake Backend**：支持基于张量的弹性分布式计算

这一架构旨在最大化大规模模型推理和训练中的张量处理效率。

## 技术报告与开放资源

Moonshot AI发布了详细的技术报告，并开源了多项资源：

- **技术报告**：详细阐述了架构设计、调度算法和性能评估
- **Trace数据**：开源了用于研究的真实工作负载跟踪数据
- **FAST'25论文**：包含最新的研究成果和实验数据

这些开放资源为学术界和工业界研究LLM服务架构提供了宝贵的参考。

## 总结与展望

Mooncake代表了LLM推理服务架构演进的重要方向。其KVCache中心化的分离式架构，通过Prefill-Decode解耦和分层KVCache池化，实现了吞吐量的大幅提升和资源利用率的优化。Transfer Engine的多协议支持和拓扑感知设计，为高性能数据传输提供了坚实基础。

随着vLLM、SGLang、TensorRT-LLM等主流框架的集成，Mooncake正在成为LLM推理基础设施的事实标准之一。对于希望构建大规模、高效率LLM服务的团队而言，Mooncake提供了经过生产验证的架构参考和可直接使用的开源组件。
