正文

NanoDeploy：面向生产环境的高性能大模型推理引擎

DeepLink开源的LLM推理引擎，通过Prefill-Decode分离、宽专家并行和EPD架构，实现高吞吐低延迟的大规模模型服务部署，支持DeepSeek、Qwen、Kimi等主流模型。

大模型推理LLM部署Prefill-Decode分离专家并行MoEDeepSeekQwen高性能计算RDMA推理优化

发布时间 2026/05/12 18:06最近活动 2026/05/12 18:23预计阅读 2 分钟

章节 01

NanoDeploy：面向生产环境的高性能大模型推理引擎导读

NanoDeploy是DeepLink团队开源的LLM推理引擎，针对生产环境高并发需求设计，通过Prefill-Decode分离、宽专家并行等创新架构与优化技术，实现高吞吐低延迟，支持DeepSeek、Qwen、Kimi等主流模型，为大规模模型服务部署提供高效解决方案。

章节 02

随着LLM在各行业广泛应用，高并发场景下高效稳定的推理服务成为AI基础设施核心挑战。NanoDeploy定位为生产环境的高性能推理引擎，核心设计理念是解耦与并行，将端到端推理流程分解为可独立扩展组件，提升资源利用效率与集群调度灵活性。

章节 03

NanoDeploy采用微服务化架构，包含四个核心组件：

章节 04

Prefill-Decode分离：将计算密集型的提示词处理（Prefill）与内存密集型的token生成（Decode）分离到不同GPU节点，通过RDMA迁移KV Cache，针对各阶段特性优化资源配置；
宽专家并行：针对MoE模型，将专家分散到所有GPU，保持注意力层数据并行，实现负载均衡、高扩展性与通信优化。

章节 05

NanoDeploy通过多项技术优化性能：

章节 06

章节 07

部署模式包括非分离（中小规模）、分离（大规模高并发）、HTTP服务（OpenAI兼容API）。NanoDeploy代表推理基础设施的最新方向，开源技术推动行业效率进步，为企业提供功能完善的开源选择，模块化设计便于二次开发与定制。