Zing 论坛

正文

FastDeploy v2.4:飞桨大模型推理部署工具包与 PD 分离架构实践

FastDeploy 是基于飞桨(PaddlePaddle)的大语言模型与视觉语言模型推理部署工具包,v2.4 版本新增 DeepSeek V3 与 Qwen3-MoE 的 PD 分离部署,增强 MTP 投机解码能力,全面优化多硬件平台上的 MoE 推理与多模态前缀缓存性能。

PaddlePaddleFastDeployLLM InferenceVLMPD DisaggregationSpeculative DecodingQuantizationERNIEDeepSeekQwen
发布时间 2026/03/31 16:14最近活动 2026/03/31 16:31预计阅读 3 分钟
FastDeploy v2.4:飞桨大模型推理部署工具包与 PD 分离架构实践
1

章节 01

导读 / 主楼:FastDeploy v2.4:飞桨大模型推理部署工具包与 PD 分离架构实践

FastDeploy 是基于飞桨(PaddlePaddle)的大语言模型与视觉语言模型推理部署工具包,v2.4 版本新增 DeepSeek V3 与 Qwen3-MoE 的 PD 分离部署,增强 MTP 投机解码能力,全面优化多硬件平台上的 MoE 推理与多模态前缀缓存性能。

2

章节 02

项目概述

FastDeploy 是百度飞桨(PaddlePaddle)生态中的大语言模型(LLM)与视觉语言模型(VLM)推理部署工具包,致力于提供开箱即用的生产级部署方案。该项目针对企业级应用场景进行了深度优化,支持多种硬件平台和丰富的加速技术。

2026 年 1 月发布的 v2.4 版本带来了多项重要更新,包括 DeepSeek V3 与 Qwen3-MoE 模型的 PD 分离部署支持、MTP(Multi-Token Prediction)投机解码能力增强,以及多硬件平台上 MoE 推理和多模态前缀缓存的全面优化。

3

章节 03

负载均衡式 PD 分离

PD 分离(Prefill-Decode Disaggregation)是提升 LLM 推理效率的关键技术。FastDeploy 实现了工业级的 PD 分离方案:

  • 上下文缓存:Prefill 阶段计算的 KV Cache 可被复用
  • 动态实例角色切换:根据负载动态调整实例的 Prefill/Decode 角色
  • SLO 保障:在优化资源利用率的同时确保服务等级目标达成
  • 吞吐量优化:通过分离计算密集型和内存密集型阶段提升整体吞吐
4

章节 04

统一 KV 缓存传输

FastDeploy 提供轻量级高性能的 KV 缓存传输库:

  • 智能传输协议选择:自动选择 NVLink 或 RDMA 以获得最佳性能
  • 低延迟传输:优化序列化和传输开销
  • 跨节点共享:支持分布式部署中的 KV Cache 共享
5

章节 05

OpenAI API 兼容与 vLLM 兼容

FastDeploy 提供与业界标准兼容的接口:

  • 单命令部署:简化部署流程
  • OpenAI API 兼容:现有应用可无缝迁移
  • vLLM 接口兼容:与 vLLM 生态保持兼容
6

章节 06

全量化格式支持

为降低部署成本,FastDeploy 支持多种量化方案:

  • W8A16:8 位权重,16 位激活
  • W8A8:8 位权重和激活
  • W4A16:4 位权重,16 位激活
  • W4A8:4 位权重,8 位激活
  • W2A16:2 位权重,16 位激活
  • FP8:8 位浮点量化
7

章节 07

高级加速技术

推测解码(Speculative Decoding) 通过小模型生成草稿,大模型并行验证,显著加速生成过程。v2.4 版本增强了 MTP(Multi-Token Prediction)能力,每次可预测多个 token。

多 Token 预测(MTP) 在推测解码基础上,每次预测多个后续 token,进一步提升解码效率。

分块预填充(Chunked Prefill) 将长序列的预填充阶段分块处理,平衡预填充和解码阶段的资源利用,减少延迟尖峰。

前缀缓存(Prefix Caching) 缓存常见前缀的 KV 值,对于多轮对话和系统提示词复用场景可显著降低首 token 延迟。v2.4 版本针对多模态场景进行了专项优化。

8

章节 08

多硬件平台支持

FastDeploy 实现了对多种国产 AI 加速器的支持:

硬件平台 支持状态 说明
NVIDIA GPU 完全支持 CUDA 生态
昆仑芯 XPU 完全支持 百度自研
海光 DCU 完全支持 国产 GPU
天数智芯 GPU 完全支持 -
燧原 GCU 完全支持 S60 等型号
沐曦 GPU 完全支持 -
英特尔 Gaudi 完全支持 -

这种广泛的硬件支持使企业能够根据成本、性能、供应链等因素灵活选择算力平台。