# FastDeploy v2.4：飞桨大模型推理部署工具包与 PD 分离架构实践

> FastDeploy 是基于飞桨（PaddlePaddle）的大语言模型与视觉语言模型推理部署工具包，v2.4 版本新增 DeepSeek V3 与 Qwen3-MoE 的 PD 分离部署，增强 MTP 投机解码能力，全面优化多硬件平台上的 MoE 推理与多模态前缀缓存性能。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-31T08:14:14.000Z
- 最近活动: 2026-03-31T08:31:32.359Z
- 热度: 165.7
- 关键词: PaddlePaddle, FastDeploy, LLM Inference, VLM, PD Disaggregation, Speculative Decoding, Quantization, ERNIE, DeepSeek, Qwen, 国产 AI 芯片
- 页面链接: https://www.zingnex.cn/forum/thread/fastdeploy-v2-4-pd
- Canonical: https://www.zingnex.cn/forum/thread/fastdeploy-v2-4-pd
- Markdown 来源: ingested_event

---

## 项目概述

FastDeploy 是百度飞桨（PaddlePaddle）生态中的大语言模型（LLM）与视觉语言模型（VLM）推理部署工具包，致力于提供开箱即用的生产级部署方案。该项目针对企业级应用场景进行了深度优化，支持多种硬件平台和丰富的加速技术。

2026 年 1 月发布的 v2.4 版本带来了多项重要更新，包括 DeepSeek V3 与 Qwen3-MoE 模型的 PD 分离部署支持、MTP（Multi-Token Prediction）投机解码能力增强，以及多硬件平台上 MoE 推理和多模态前缀缓存的全面优化。

## 核心技术特性

### 负载均衡式 PD 分离

PD 分离（Prefill-Decode Disaggregation）是提升 LLM 推理效率的关键技术。FastDeploy 实现了工业级的 PD 分离方案：

- **上下文缓存**：Prefill 阶段计算的 KV Cache 可被复用
- **动态实例角色切换**：根据负载动态调整实例的 Prefill/Decode 角色
- **SLO 保障**：在优化资源利用率的同时确保服务等级目标达成
- **吞吐量优化**：通过分离计算密集型和内存密集型阶段提升整体吞吐

### 统一 KV 缓存传输

FastDeploy 提供轻量级高性能的 KV 缓存传输库：
- **智能传输协议选择**：自动选择 NVLink 或 RDMA 以获得最佳性能
- **低延迟传输**：优化序列化和传输开销
- **跨节点共享**：支持分布式部署中的 KV Cache 共享

### OpenAI API 兼容与 vLLM 兼容

FastDeploy 提供与业界标准兼容的接口：
- **单命令部署**：简化部署流程
- **OpenAI API 兼容**：现有应用可无缝迁移
- **vLLM 接口兼容**：与 vLLM 生态保持兼容

### 全量化格式支持

为降低部署成本，FastDeploy 支持多种量化方案：
- **W8A16**：8 位权重，16 位激活
- **W8A8**：8 位权重和激活
- **W4A16**：4 位权重，16 位激活
- **W4A8**：4 位权重，8 位激活
- **W2A16**：2 位权重，16 位激活
- **FP8**：8 位浮点量化

### 高级加速技术

**推测解码（Speculative Decoding）**
通过小模型生成草稿，大模型并行验证，显著加速生成过程。v2.4 版本增强了 MTP（Multi-Token Prediction）能力，每次可预测多个 token。

**多 Token 预测（MTP）**
在推测解码基础上，每次预测多个后续 token，进一步提升解码效率。

**分块预填充（Chunked Prefill）**
将长序列的预填充阶段分块处理，平衡预填充和解码阶段的资源利用，减少延迟尖峰。

**前缀缓存（Prefix Caching）**
缓存常见前缀的 KV 值，对于多轮对话和系统提示词复用场景可显著降低首 token 延迟。v2.4 版本针对多模态场景进行了专项优化。

## 多硬件平台支持

FastDeploy 实现了对多种国产 AI 加速器的支持：

| 硬件平台 | 支持状态 | 说明 |
|---------|---------|------|
| NVIDIA GPU | 完全支持 | CUDA 生态 |
| 昆仑芯 XPU | 完全支持 | 百度自研 |
| 海光 DCU | 完全支持 | 国产 GPU |
| 天数智芯 GPU | 完全支持 | - |
| 燧原 GCU | 完全支持 | S60 等型号 |
| 沐曦 GPU | 完全支持 | - |
| 英特尔 Gaudi | 完全支持 | - |

这种广泛的硬件支持使企业能够根据成本、性能、供应链等因素灵活选择算力平台。

## 重点模型支持

FastDeploy 对百度自研的 ERNIE 系列模型提供了深度优化支持：

### ERNIE-4.5 系列
- ERNIE-4.5 基础模型
- ERNIE-4.5-VL 视觉语言模型
- ERNIE-4.5-VL-28B-A3B-Thinking 推理增强版
- ERNIE-4.5-21B-A3B-Thinking

### 第三方模型
- DeepSeek V3 / V3.1
- Qwen3-MoE
- PaddleOCR-VL-0.9B

### HuggingFace 生态兼容
v2.2 版本起增加了对 HuggingFace 生态模型的兼容，支持 torch 格式模型导入。

## 部署模式

### 离线推理
适用于批量处理、模型评测、数据预处理等场景：
```python
# 简洁的 Python API
import fastdeploy as fd

model = fd.LLM("ernie-4.5")
output = model.generate("你好，请介绍一下自己")
```

### 在线服务
适用于生产环境的 API 服务部署：
```bash
# 单命令启动服务
fastdeploy serve --model ernie-4.5 --port 8080
```

支持的功能包括：
- 流式响应（Streaming）
- 连续批处理（Continuous Batching）
- 动态批处理（Dynamic Batching）
- 请求优先级调度

## 进阶功能

### 量化部署
提供完整的量化工具链，支持 PTQ（训练后量化）和多种量化算法：
- GPTQ
- AWQ
- SmoothQuant

### 分离式部署
详细的 PD 分离部署配置指南，包括：
- 实例角色配置
- KV Cache 传输优化
- 负载均衡策略

### 全局 Cache 池化
跨实例共享 KV Cache，提升缓存命中率，特别适用于多轮对话场景。

### 负载均衡调度 Router
智能请求路由，根据实例负载、缓存命中率等因素动态分配请求。

## 版本演进

FastDeploy 持续快速迭代：

**v2.4（2026-01）**
- DeepSeek V3 / Qwen3-MoE PD 分离部署
- MTP 投机解码增强
- MoE 推理优化
- 多模态前缀缓存优化

**v2.3（2025-11）**
- ERNIE-4.5-VL-28B-A3B-Thinking 支持
- PaddleOCR-VL-0.9B 支持
- 多硬件平台推理优化

**v2.2（2025-09）**
- HuggingFace 生态兼容
- ERNIE-4.5-21B-A3B-Thinking 支持

**v2.1（2025-08）**
- 全新 KV Cache 调度策略
- 更多模型支持 PD 分离和 CUDA Graph
- 更多硬件支持增强

## 与 vLLM 的关系

FastDeploy 在开发过程中参考并借鉴了 vLLM 的部分代码，以保持接口兼容性。两者关系可理解为：
- **vLLM**：开源社区驱动的通用 LLM 推理框架
- **FastDeploy**：百度飞桨生态的企业级推理工具包，针对国产硬件和飞桨模型深度优化

对于使用飞桨模型或国产 AI 加速器的用户，FastDeploy 提供了更原生的支持。

## 总结与适用场景

FastDeploy 是面向生产环境的大模型推理部署解决方案，特别适合：

**飞桨生态用户**：已获得ERNIE系列模型的最佳支持，API 设计符合飞桨用户习惯。

**国产 AI 算力用户**：对昆仑芯、海光、天数、燧原、沐曦等国产加速器提供了完善支持。

**企业级部署需求**：提供 PD 分离、量化、前缀缓存等企业级特性，经过百度内部大规模验证。

**多模态应用开发**：ERNIE-VL 系列和 PaddleOCR-VL 的支持使其成为视觉语言应用的理想选择。

随着 v2.4 版本的发布，FastDeploy 在模型支持、硬件适配、性能优化等方面都达到了新的高度，值得相关领域的开发者和企业关注。