章节 01
导读 / 主楼:DLEngine:面向生产环境的LLM推理引擎架构解析
DLEngine是一个开源的高性能大语言模型推理引擎,采用Prefill-Decode分离架构和宽专家并行技术,支持DeepSeek-V3/V4、Qwen3、Kimi-K2等主流模型,提供低延迟、高吞吐的推理服务。
正文
DLEngine是一个开源的高性能大语言模型推理引擎,采用Prefill-Decode分离架构和宽专家并行技术,支持DeepSeek-V3/V4、Qwen3、Kimi-K2等主流模型,提供低延迟、高吞吐的推理服务。
章节 01
DLEngine是一个开源的高性能大语言模型推理引擎,采用Prefill-Decode分离架构和宽专家并行技术,支持DeepSeek-V3/V4、Qwen3、Kimi-K2等主流模型,提供低延迟、高吞吐的推理服务。
章节 02
章节 03
随着大语言模型(LLM)参数规模持续膨胀,推理服务的性能优化已成为AI基础设施的核心挑战。传统的单节点推理方案在面对长上下文、高并发场景时往往力不从心。DLEngine 是由 DeepLink-org 团队开源的高性能LLM推理引擎,专门针对生产环境设计,通过创新的架构设计实现了低延迟与高吞吐的平衡。
该项目并非简单的 vLLM 或 TensorRT-LLM 的封装,而是从底层重新设计了推理流程,核心亮点在于 Prefill-Decode 分离架构和宽专家并行(Wide Expert Parallelism)策略,使其在处理 MoE(混合专家)模型时表现尤为出色。
章节 04
传统LLM推理将 prompt 处理和 token 生成放在同一进程中,这导致两者互相阻塞。DLEngine 将推理流程拆分为三个独立阶段:
这种分离允许针对不同阶段进行专门优化。Prefill 引擎可以批量处理长 prompt,而 Decode 引擎则专注于低延迟生成。两个阶段通过 GPUDirect RDMA 进行 KV Cache 迁移,避免了 CPU 内存中转的开销。
章节 05
对于 MoE 模型(如 DeepSeek-V3),DLEngine 实现了创新的并行策略:
attention_dp × ffn_ep 组合实现灵活扩展这种设计允许在保持注意力层低延迟的同时,充分利用多 GPU 的 FFN 计算能力。
章节 06
| 技术 | 描述 | 效果 |
|---|---|---|
| FP8 KV Cache | Float8 (E4M3) 格式的分页 KV Cache | 内存占用降低约50% |
| MLA (Multi-head Latent Attention) | DeepSeek 系列的低秩 KV 压缩 | 显著减少 KV Cache 体积 |
| GDN (Gated Delta Net) | Qwen3.5-MoE 的线性注意力机制 | 混合全连接/线性层的高效计算 |
| 前缀缓存 | 共享 prompt 前缀的 KV Cache 复用 | 重复查询加速明显 |
章节 07
章节 08
DLEngine 通过 dlengine.vl 子包支持视觉语言模型,如 Qwen3-VL。Vision Encoder 作为独立组件运行,通过 RDMA 将图像 embedding 传输给 Prefill 引擎。