章节 01
【导读】Mooncake:Kimi背后的高性能LLM推理服务架构核心解析
Mooncake是Moonshot AI为旗舰大语言模型服务Kimi打造的推理服务平台,核心采用KVCache中心化的分离式架构,通过Transfer Engine实现Prefill与Decode集群解耦,支持RDMA/CXL/NVMe-oF等多种传输协议,已集成vLLM、SGLang、TensorRT-LLM等主流推理框架。该平台开源关键组件并获FAST会议最佳论文奖,是LLM推理基础设施的重要参考。
正文
Moonshot AI开源的Kimi服务底层平台,采用KVCache中心化的分离式架构,通过Transfer Engine实现Prefill与Decode集群解耦,支持RDMA/CXL/NVMe-oF等多种传输协议,已集成vLLM、SGLang、TensorRT-LLM等主流推理框架。
章节 01
Mooncake是Moonshot AI为旗舰大语言模型服务Kimi打造的推理服务平台,核心采用KVCache中心化的分离式架构,通过Transfer Engine实现Prefill与Decode集群解耦,支持RDMA/CXL/NVMe-oF等多种传输协议,已集成vLLM、SGLang、TensorRT-LLM等主流推理框架。该平台开源关键组件并获FAST会议最佳论文奖,是LLM推理基础设施的重要参考。
章节 02
Mooncake是Moonshot AI为Kimi打造的推理平台,2024年6月发布技术报告,2024年11月开源Transfer Engine核心组件,2025年3月开源Mooncake Store。2025年2月获FAST会议最佳论文奖,同年加入PyTorch生态系统,成为官方支持的推理加速组件。
章节 03
Mooncake创新性采用KVCache中心化分离式架构:
章节 04
章节 05
章节 06
Mooncake已集成主流推理框架:vLLM(v1版本支持PD分离)、SGLang(HiCache后端及EPD分离)、TensorRT-LLM(KVCache传输后端)等;还支持弹性专家并行(故障检测、动态Token路由)和张量中心生态(全栈张量处理)。
章节 07
Mooncake代表LLM推理架构演进方向,通过分离式设计和高效传输组件实现吞吐量与资源利用率优化。随着主流框架集成,正成为LLM推理基础设施事实标准之一,为大规模LLM服务提供生产验证的架构参考和开源组件。