正文

DLEngine：面向生产环境的LLM推理引擎架构解析

DLEngine是一个开源的高性能大语言模型推理引擎，采用Prefill-Decode分离架构和宽专家并行技术，支持DeepSeek-V3/V4、Qwen3、Kimi-K2等主流模型，提供低延迟、高吞吐的推理服务。

LLM推理大模型部署Prefill-Decode分离MoEDeepSeekQwenvLLM替代

发布时间 2026/06/13 01:15最近活动 2026/06/13 01:24预计阅读 3 分钟

章节 01

导读 / 主楼：DLEngine：面向生产环境的LLM推理引擎架构解析

章节 02

原作者与来源

原作者/维护者: DeepLink-org
来源平台: GitHub
原始标题: DLEngine: LLM Inference with Prefill-Decode Disaggregation and Wide Expert Parallelism
原始链接: https://github.com/DeepLink-org/DLEngine
发布时间: 2026年6月12日

章节 03

项目背景与定位

随着大语言模型（LLM）参数规模持续膨胀，推理服务的性能优化已成为AI基础设施的核心挑战。传统的单节点推理方案在面对长上下文、高并发场景时往往力不从心。DLEngine 是由 DeepLink-org 团队开源的高性能LLM推理引擎，专门针对生产环境设计，通过创新的架构设计实现了低延迟与高吞吐的平衡。

该项目并非简单的 vLLM 或 TensorRT-LLM 的封装，而是从底层重新设计了推理流程，核心亮点在于 Prefill-Decode 分离架构和宽专家并行（Wide Expert Parallelism）策略，使其在处理 MoE（混合专家）模型时表现尤为出色。

章节 04

Prefill-Decode 分离架构

传统LLM推理将 prompt 处理和 token 生成放在同一进程中，这导致两者互相阻塞。DLEngine 将推理流程拆分为三个独立阶段：

Encoder 阶段：处理多模态输入（如图像编码）
Prefill 阶段：计算 prompt 的 KV Cache，计算密集
Decode 阶段：自回归生成 token，内存密集

这种分离允许针对不同阶段进行专门优化。Prefill 引擎可以批量处理长 prompt，而 Decode 引擎则专注于低延迟生成。两个阶段通过 GPUDirect RDMA 进行 KV Cache 迁移，避免了 CPU 内存中转的开销。

章节 05

宽专家并行（Wide Expert Parallelism）

对于 MoE 模型（如 DeepSeek-V3），DLEngine 实现了创新的并行策略：

Attention 数据并行：注意力计算在所有 GPU 上复制
FFN 专家并行：专家网络分散到不同 GPU，通过 attention_dp × ffn_ep 组合实现灵活扩展

这种设计允许在保持注意力层低延迟的同时，充分利用多 GPU 的 FFN 计算能力。

章节 06

内存优化技术

技术	描述	效果
FP8 KV Cache	Float8 (E4M3) 格式的分页 KV Cache	内存占用降低约50%
MLA (Multi-head Latent Attention)	DeepSeek 系列的低秩 KV 压缩	显著减少 KV Cache 体积
GDN (Gated Delta Net)	Qwen3.5-MoE 的线性注意力机制	混合全连接/线性层的高效计算
前缀缓存	共享 prompt 前缀的 KV Cache 复用	重复查询加速明显

章节 07

推理加速技术

Continuous Batching：动态请求调度，配合分页 KV Cache 实现高效批处理
CUDA Graph：捕获 decode 内核，消除 Python 开销，降低 token 生成延迟
Chunked Prefill：将长 prompt 分块，与 decode 批次重叠执行
Multi-Token Prediction (MTP)：利用模型原生 MTP 头进行投机解码
Native Sparse Attention (NSA)：DeepSeek-V3.2 的 FP8 稀疏解码，块级索引

章节 08

多模态支持

DLEngine 通过 dlengine.vl 子包支持视觉语言模型，如 Qwen3-VL。Vision Encoder 作为独立组件运行，通过 RDMA 将图像 embedding 传输给 Prefill 引擎。

DLEngine：面向生产环境的LLM推理引擎架构解析

导读 / 主楼：DLEngine：面向生产环境的LLM推理引擎架构解析

原作者与来源

项目背景与定位

Prefill-Decode 分离架构

宽专家并行（Wide Expert Parallelism）

内存优化技术

推理加速技术

多模态支持

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎