Zing 论坛

正文

DLEngine:面向生产环境的LLM推理引擎架构解析

DLEngine是一个开源的高性能大语言模型推理引擎,采用Prefill-Decode分离架构和宽专家并行技术,支持DeepSeek-V3/V4、Qwen3、Kimi-K2等主流模型,提供低延迟、高吞吐的推理服务。

LLM推理大模型部署Prefill-Decode分离MoEDeepSeekQwenvLLM替代
发布时间 2026/06/13 01:15最近活动 2026/06/13 01:24预计阅读 3 分钟
DLEngine:面向生产环境的LLM推理引擎架构解析
1

章节 01

导读 / 主楼:DLEngine:面向生产环境的LLM推理引擎架构解析

DLEngine是一个开源的高性能大语言模型推理引擎,采用Prefill-Decode分离架构和宽专家并行技术,支持DeepSeek-V3/V4、Qwen3、Kimi-K2等主流模型,提供低延迟、高吞吐的推理服务。

2

章节 02

原作者与来源

  • 原作者/维护者: DeepLink-org
  • 来源平台: GitHub
  • 原始标题: DLEngine: LLM Inference with Prefill-Decode Disaggregation and Wide Expert Parallelism
  • 原始链接: https://github.com/DeepLink-org/DLEngine
  • 发布时间: 2026年6月12日
3

章节 03

项目背景与定位

随着大语言模型(LLM)参数规模持续膨胀,推理服务的性能优化已成为AI基础设施的核心挑战。传统的单节点推理方案在面对长上下文、高并发场景时往往力不从心。DLEngine 是由 DeepLink-org 团队开源的高性能LLM推理引擎,专门针对生产环境设计,通过创新的架构设计实现了低延迟与高吞吐的平衡。

该项目并非简单的 vLLM 或 TensorRT-LLM 的封装,而是从底层重新设计了推理流程,核心亮点在于 Prefill-Decode 分离架构和宽专家并行(Wide Expert Parallelism)策略,使其在处理 MoE(混合专家)模型时表现尤为出色。

4

章节 04

Prefill-Decode 分离架构

传统LLM推理将 prompt 处理和 token 生成放在同一进程中,这导致两者互相阻塞。DLEngine 将推理流程拆分为三个独立阶段:

  1. Encoder 阶段:处理多模态输入(如图像编码)
  2. Prefill 阶段:计算 prompt 的 KV Cache,计算密集
  3. Decode 阶段:自回归生成 token,内存密集

这种分离允许针对不同阶段进行专门优化。Prefill 引擎可以批量处理长 prompt,而 Decode 引擎则专注于低延迟生成。两个阶段通过 GPUDirect RDMA 进行 KV Cache 迁移,避免了 CPU 内存中转的开销。

5

章节 05

宽专家并行(Wide Expert Parallelism)

对于 MoE 模型(如 DeepSeek-V3),DLEngine 实现了创新的并行策略:

  • Attention 数据并行:注意力计算在所有 GPU 上复制
  • FFN 专家并行:专家网络分散到不同 GPU,通过 attention_dp × ffn_ep 组合实现灵活扩展

这种设计允许在保持注意力层低延迟的同时,充分利用多 GPU 的 FFN 计算能力。

6

章节 06

内存优化技术

技术 描述 效果
FP8 KV Cache Float8 (E4M3) 格式的分页 KV Cache 内存占用降低约50%
MLA (Multi-head Latent Attention) DeepSeek 系列的低秩 KV 压缩 显著减少 KV Cache 体积
GDN (Gated Delta Net) Qwen3.5-MoE 的线性注意力机制 混合全连接/线性层的高效计算
前缀缓存 共享 prompt 前缀的 KV Cache 复用 重复查询加速明显
7

章节 07

推理加速技术

  • Continuous Batching:动态请求调度,配合分页 KV Cache 实现高效批处理
  • CUDA Graph:捕获 decode 内核,消除 Python 开销,降低 token 生成延迟
  • Chunked Prefill:将长 prompt 分块,与 decode 批次重叠执行
  • Multi-Token Prediction (MTP):利用模型原生 MTP 头进行投机解码
  • Native Sparse Attention (NSA):DeepSeek-V3.2 的 FP8 稀疏解码,块级索引
8

章节 08

多模态支持

DLEngine 通过 dlengine.vl 子包支持视觉语言模型,如 Qwen3-VL。Vision Encoder 作为独立组件运行,通过 RDMA 将图像 embedding 传输给 Prefill 引擎。