# NanoDeploy：面向生产环境的高性能大模型推理引擎

> DeepLink开源的LLM推理引擎，通过Prefill-Decode分离、宽专家并行和EPD架构，实现高吞吐低延迟的大规模模型服务部署，支持DeepSeek、Qwen、Kimi等主流模型。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-12T10:06:49.000Z
- 最近活动: 2026-05-12T10:23:43.851Z
- 热度: 154.7
- 关键词: 大模型推理, LLM部署, Prefill-Decode分离, 专家并行, MoE, DeepSeek, Qwen, 高性能计算, RDMA, 推理优化
- 页面链接: https://www.zingnex.cn/forum/thread/nanodeploy
- Canonical: https://www.zingnex.cn/forum/thread/nanodeploy
- Markdown 来源: ingested_event

---

# NanoDeploy：面向生产环境的高性能大模型推理引擎

## 项目概述与技术定位

随着大语言模型（LLM）在各行各业的广泛应用，如何在高并发场景下实现高效、稳定的模型推理服务，已成为AI基础设施领域的核心挑战。**NanoDeploy**是由DeepLink团队开源的LLM推理引擎，专门针对生产环境的严苛要求而设计，通过一系列创新架构和优化技术，实现了高吞吐量与低延迟的最佳平衡。

该项目的核心设计理念是**解耦与并行**——将传统的端到端推理流程分解为多个可独立扩展的组件，并针对每个组件的特性进行专门优化。这种架构不仅提升了资源利用效率，还为大规模集群部署提供了灵活的调度能力。

## 核心架构组件

NanoDeploy采用微服务化的架构设计，由四个核心组件协同工作：

### NanoRoute：智能流量网关

基于Rust编写的HTTP负载均衡器，提供OpenAI兼容的API接口。它负责接收客户端请求，根据路由策略将请求分发到不同的后端引擎。支持工具调用、多轮对话等高级功能，并通过服务发现机制动态感知后端节点的健康状态。

### NanoCtrl：服务治理中心

同样基于Rust实现的控制平面，采用Redis作为后端存储。负责所有引擎节点的注册、心跳监控和生命周期管理。NanoRoute通过查询NanoCtrl获取可用的引擎实例列表，实现动态负载均衡和故障转移。

### NanoDeploy：推理执行引擎

基于Python/C++实现的核心推理引擎，支持Prefill和Decode两种模式的分离部署。该组件负责实际的模型推理计算，包括KV Cache管理、连续批处理、CUDA Graph优化等关键功能。通过Ray实现分布式工作节点管理，支持大规模并行推理。

### NanoDeployVL：视觉语言编码器

针对多模态场景设计的视觉编码组件，支持EP分离的ViT编码器，通过RDMA实现嵌入向量的高效传输。目前已支持Qwen3-VL等主流视觉语言模型。

## Prefill-Decode分离架构

NanoDeploy最具创新性的设计是**Prefill-Decode分离**架构。传统LLM推理将提示词处理（Prefill）和token生成（Decode）放在同一设备上执行，但这两个阶段具有截然不同的计算特性：

**Prefill阶段**是计算密集型的，需要一次性处理整个输入序列，计算量大但可以高度并行。这个阶段主要受限于GPU的计算能力。

**Decode阶段**是内存密集型的，采用自回归方式逐个生成token，每次只处理一个新token，主要瓶颈在于内存带宽和KV Cache的访问延迟。

NanoDeploy将这两个阶段分离到不同的GPU节点上，通过RDMA（远程直接内存访问）实现KV Cache的高效迁移。这种架构允许针对每个阶段的特点进行专门优化：Prefill节点可以配置高算力GPU以加速并行计算，Decode节点则可以优化内存带宽和缓存效率。

## 宽专家并行（Wide Expert Parallelism）

对于混合专家模型（MoE），NanoDeploy实现了**宽专家并行**技术。传统的专家并行通常将专家分配到有限的GPU子集上，而宽专家并行将MoE层的专家分散到所有可用GPU上，同时保持注意力层的数据并行。

这种设计带来了显著优势：

- **负载均衡**：所有GPU都参与专家计算，避免了某些GPU闲置而其他GPU过载的情况
- **扩展性**：可以轻松扩展到数十甚至上百个GPU，支持超大规模MoE模型
- **通信优化**：通过DeepEP库实现高效的all-to-all通信，最小化专家切换的开销

## 关键技术特性

### 连续批处理与动态调度

NanoDeploy实现了先进的连续批处理机制，允许在批次执行过程中动态添加新请求。结合分页KV Cache管理，系统可以高效处理变长序列，显著提升GPU利用率。

### FP8 KV Cache

采用Float8（E4M3）格式存储KV Cache，相比传统的FP16或BF16，可将缓存占用减少约50%。这对于长上下文场景尤为重要，使得在有限显存下支持更长的序列长度成为可能。

### 前缀缓存（Prefix Caching）

对于共享相同系统提示或多轮对话的场景，NanoDeploy可以复用已计算的KV Cache，避免重复计算。这一特性对于Agent应用和RAG系统特别有价值。

### 多Token预测（MTP）

支持模型原生的多Token预测头，通过推测性解码加速token生成。系统可以一次性预测多个未来token，然后验证并提交正确的预测结果，显著降低解码延迟。

### 原生稀疏注意力（NSA）

针对DeepSeek-V3.2等支持NSA的模型，NanoDeploy实现了FP8稀疏解码，通过块级索引高效处理稀疏注意力模式，进一步降低长序列推理的计算开销。

## 支持的模型生态

NanoDeploy致力于支持主流开源模型，目前已适配：

| 模型 | 架构特点 |
|------|----------|
| DeepSeek-V3 | MLA + MoE |
| DeepSeek-V3.2 | MLA + MoE + NSA |
| DeepSeek-V4 | MLA + MoE + DSA + SWA |
| GLM-5 | MLA + MoE + NSA |
| Kimi-K2 | MLA + MoE |
| Qwen3 | GQA（稠密） |
| Qwen3-MoE | GQA + MoE |
| Qwen3.5-MoE | GQA + GDN + MoE |
| Qwen3-VL | GQA + MoE + ViT |

这种广泛的模型支持使NanoDeploy成为一个通用的推理基础设施，用户可以根据业务需求灵活选择模型，而无需更换底层推理框架。

## 性能优化内核

NanoDeploy深度集成了多个高性能计算库：

**DeepEP（1.2.1）**：DeepSeek开源的专家并行通信库，针对MoE的dispatch和combine操作进行了高度优化，支持高效的all-to-all通信。

**DeepGEMM（2.1.1）**：JIT编译的FP8 GEMM内核，支持细粒度缩放，充分发挥Hopper架构GPU的FP8计算能力。

**FlashMLA（1.0.0）**：DeepSeek开源的多头潜在注意力解码内核，支持稠密和FP8稀疏两种模式，是MLA架构模型高效推理的关键。

**FlashInfer（0.6.6）**：社区维护的高性能推理内核集合，涵盖注意力、GDN、采样等多种操作。

**DLSlime（0.0.3.rc1）**：灵活的异构传输工具包，支持RDMA、NVLink、NVSHMEM等多种高速互联技术。

这些底层优化确保了NanoDeploy能够在NVIDIA Hopper架构（SM90+）GPU上发挥极致性能。

## 部署模式与使用场景

NanoDeploy支持灵活的部署模式，适应不同规模和需求：

### 非分离模式（Non-Disaggregated）

适合中小规模部署，Prefill和Decode在同一节点上执行。部署简单，资源开销低，适合原型验证和轻量级生产环境。

### 分离模式（Disaggregated）

适合大规模高并发场景，Prefill和Decode分别部署在不同节点上。通过RDMA互联，实现极致的性能和弹性扩展能力。

### HTTP服务模式

通过NanoRoute提供OpenAI兼容的HTTP API，支持标准的聊天补全接口，可无缝集成到现有应用中。

## 技术启示与行业影响

NanoDeploy代表了大模型推理基础设施的最新发展方向。其Prefill-Decode分离架构和宽专家并行技术，为业界提供了处理超大规模模型的新思路。通过开源这些先进技术，DeepLink团队推动了整个行业在推理效率方面的进步。

对于希望自建大模型服务的企业和研究机构，NanoDeploy提供了一个功能完善、性能卓越的开源选择。其模块化的架构设计也使得二次开发和定制变得相对容易，有助于构建符合特定业务需求的推理平台。
