章节 01
导读 / 主楼:FastDeploy v2.4:飞桨大模型推理部署工具包与 PD 分离架构实践
FastDeploy 是基于飞桨(PaddlePaddle)的大语言模型与视觉语言模型推理部署工具包,v2.4 版本新增 DeepSeek V3 与 Qwen3-MoE 的 PD 分离部署,增强 MTP 投机解码能力,全面优化多硬件平台上的 MoE 推理与多模态前缀缓存性能。
正文
FastDeploy 是基于飞桨(PaddlePaddle)的大语言模型与视觉语言模型推理部署工具包,v2.4 版本新增 DeepSeek V3 与 Qwen3-MoE 的 PD 分离部署,增强 MTP 投机解码能力,全面优化多硬件平台上的 MoE 推理与多模态前缀缓存性能。
章节 01
FastDeploy 是基于飞桨(PaddlePaddle)的大语言模型与视觉语言模型推理部署工具包,v2.4 版本新增 DeepSeek V3 与 Qwen3-MoE 的 PD 分离部署,增强 MTP 投机解码能力,全面优化多硬件平台上的 MoE 推理与多模态前缀缓存性能。
章节 02
FastDeploy 是百度飞桨(PaddlePaddle)生态中的大语言模型(LLM)与视觉语言模型(VLM)推理部署工具包,致力于提供开箱即用的生产级部署方案。该项目针对企业级应用场景进行了深度优化,支持多种硬件平台和丰富的加速技术。
2026 年 1 月发布的 v2.4 版本带来了多项重要更新,包括 DeepSeek V3 与 Qwen3-MoE 模型的 PD 分离部署支持、MTP(Multi-Token Prediction)投机解码能力增强,以及多硬件平台上 MoE 推理和多模态前缀缓存的全面优化。
章节 03
PD 分离(Prefill-Decode Disaggregation)是提升 LLM 推理效率的关键技术。FastDeploy 实现了工业级的 PD 分离方案:
章节 04
FastDeploy 提供轻量级高性能的 KV 缓存传输库:
章节 05
FastDeploy 提供与业界标准兼容的接口:
章节 06
为降低部署成本,FastDeploy 支持多种量化方案:
章节 07
推测解码(Speculative Decoding) 通过小模型生成草稿,大模型并行验证,显著加速生成过程。v2.4 版本增强了 MTP(Multi-Token Prediction)能力,每次可预测多个 token。
多 Token 预测(MTP) 在推测解码基础上,每次预测多个后续 token,进一步提升解码效率。
分块预填充(Chunked Prefill) 将长序列的预填充阶段分块处理,平衡预填充和解码阶段的资源利用,减少延迟尖峰。
前缀缓存(Prefix Caching) 缓存常见前缀的 KV 值,对于多轮对话和系统提示词复用场景可显著降低首 token 延迟。v2.4 版本针对多模态场景进行了专项优化。
章节 08
FastDeploy 实现了对多种国产 AI 加速器的支持:
| 硬件平台 | 支持状态 | 说明 |
|---|---|---|
| NVIDIA GPU | 完全支持 | CUDA 生态 |
| 昆仑芯 XPU | 完全支持 | 百度自研 |
| 海光 DCU | 完全支持 | 国产 GPU |
| 天数智芯 GPU | 完全支持 | - |
| 燧原 GCU | 完全支持 | S60 等型号 |
| 沐曦 GPU | 完全支持 | - |
| 英特尔 Gaudi | 完全支持 | - |
这种广泛的硬件支持使企业能够根据成本、性能、供应链等因素灵活选择算力平台。