Zing 论坛

正文

NanoDeploy:面向生产环境的高性能大模型推理引擎

DeepLink开源的LLM推理引擎,通过Prefill-Decode分离、宽专家并行和EPD架构,实现高吞吐低延迟的大规模模型服务部署,支持DeepSeek、Qwen、Kimi等主流模型。

大模型推理LLM部署Prefill-Decode分离专家并行MoEDeepSeekQwen高性能计算RDMA推理优化
发布时间 2026/05/12 18:06最近活动 2026/05/12 18:23预计阅读 2 分钟
NanoDeploy:面向生产环境的高性能大模型推理引擎
1

章节 01

NanoDeploy:面向生产环境的高性能大模型推理引擎导读

NanoDeploy是DeepLink团队开源的LLM推理引擎,针对生产环境高并发需求设计,通过Prefill-Decode分离、宽专家并行等创新架构与优化技术,实现高吞吐低延迟,支持DeepSeek、Qwen、Kimi等主流模型,为大规模模型服务部署提供高效解决方案。

2

章节 02

NanoDeploy的研发背景与技术定位

随着LLM在各行业广泛应用,高并发场景下高效稳定的推理服务成为AI基础设施核心挑战。NanoDeploy定位为生产环境的高性能推理引擎,核心设计理念是解耦与并行,将端到端推理流程分解为可独立扩展组件,提升资源利用效率与集群调度灵活性。

3

章节 03

NanoDeploy的核心架构组件

NanoDeploy采用微服务化架构,包含四个核心组件:

  1. NanoRoute:Rust编写的智能流量网关,提供OpenAI兼容API,负责请求分发与高级功能支持;
  2. NanoCtrl:Rust实现的服务治理中心,基于Redis管理引擎节点注册、监控与生命周期;
  3. 推理执行引擎:Python/C++实现,支持Prefill/Decode分离部署,负责推理计算与分布式管理;
  4. NanoDeployVL:视觉语言编码器,支持EP分离ViT与RDMA传输,适配多模态模型。
4

章节 04

创新技术设计:分离架构与宽专家并行

  1. Prefill-Decode分离:将计算密集型的提示词处理(Prefill)与内存密集型的token生成(Decode)分离到不同GPU节点,通过RDMA迁移KV Cache,针对各阶段特性优化资源配置;
  2. 宽专家并行:针对MoE模型,将专家分散到所有GPU,保持注意力层数据并行,实现负载均衡、高扩展性与通信优化。
5

章节 05

关键优化特性提升推理性能

NanoDeploy通过多项技术优化性能:

  • 连续批处理与动态调度:动态添加请求,结合分页KV Cache提升GPU利用率;
  • FP8 KV Cache:减少缓存占用约50%,支持更长序列;
  • 前缀缓存:复用共享提示的KV Cache,避免重复计算;
  • 多Token预测:通过推测性解码加速生成;
  • 原生稀疏注意力:高效处理稀疏模式,降低长序列开销。
6

章节 06

模型生态与高性能内核支持

  1. 模型生态:适配DeepSeek-V3/V3.2/V4、GLM-5、Kimi-K2、Qwen3系列等主流模型,覆盖稠密与MoE架构;
  2. 性能内核:集成DeepEP、DeepGEMM、FlashMLA、FlashInfer、DLSlime等高性能库,充分发挥Hopper架构GPU能力。
7

章节 07

部署模式与行业影响

部署模式包括非分离(中小规模)、分离(大规模高并发)、HTTP服务(OpenAI兼容API)。NanoDeploy代表推理基础设施的最新方向,开源技术推动行业效率进步,为企业提供功能完善的开源选择,模块化设计便于二次开发与定制。