Zing 论坛

正文

AWS EFA v2 上的分离式大模型推理验证框架:从 NCCL 到 SGLang PD 的端到端实践

一套面向生产环境的基础设施验证方案,涵盖从底层 RDMA 网络测试到 SGLang Prefill-Decode 分离部署的完整链路,为在 AWS EKS 上部署高性能 LLM 推理服务提供可复现的基准测试方法

EFARDMA分离式推理SGLangMooncakeNCCLAWSEKSKV CachePrefill-Decode
发布时间 2026/04/29 14:40最近活动 2026/04/29 14:49预计阅读 2 分钟
AWS EFA v2 上的分离式大模型推理验证框架:从 NCCL 到 SGLang PD 的端到端实践
1

章节 01

导读:AWS EFA v2 分离式大模型推理验证框架端到端实践

本文介绍由KevinZhao开源的AWS EFA v2分离式大模型推理验证框架,针对AWS EKS环境配合EFA v2 RDMA网络,验证从底层网络性能到上层SGLang Prefill-Decode分离部署的全链路可行性。框架采用四层递进式验证架构,为生产级分离式LLM推理部署提供可复现的测试方法与性能基准。

2

章节 02

分离式推理的技术背景与核心挑战

传统单节点推理面临显存瓶颈与吞吐量限制,分离式推理将计算密集型Prefill阶段与内存带宽密集型Decode阶段分布在不同节点,优化资源利用。但该架构需解决KV Cache跨节点传输的低延迟、高带宽需求。AWS EFA v2提供RDMA高性能网络,但需系统性验证从硬件到应用的多层软件栈性能。

3

章节 03

验证方法:底层网络与通信层测试

框架第一阶段通过NCCL测试p5.48xlarge实例的all-reduce/all-to-all操作,实测all-reduce带宽达476.91 GB/s(超320GB/s阈值)。第二阶段验证UCCL-EP的低延迟dispatch/combine操作,16个rank通过正确性测试,每rank吞吐约7GB/s,满足功能验证要求。

4

章节 04

验证方法:KV传输与端到端推理测试

第三阶段使用Mooncake KV传输引擎,DRAM-DRAM写入吞吐为19.31 GB/s(距150GB/s目标有差距,需调优)。第四阶段SGLang Prefill-Decode分离部署(1P:1D)显示TPOT降至单节点基线的0.53倍(Decode加速),但TTFT升高至7.7倍(需优化Prefill开销或调度策略)。

5

章节 05

基础设施与部署要点

框架基于Kubernetes构建,依赖EKS 1.35+、NVIDIA GPU Operator v24.9.2、MPI Operator v0.6.0、LeaderWorkerSet v0.7.0等。提供5个专用容器镜像,建议在EC2 m7i.4xlarge+实例上构建镜像以避免网络瓶颈。

6

章节 06

运行手册与最佳实践

项目RUNBOOK.md记录完整测试日志(含失败与修复方法)。工作流程:配置.env参数→构建镜像→创建K8s资源→逐阶段测试。最佳实践包括:确保EFA/OFI配置正确、监控带宽利用率、调整KV Cache传输buffer。

7

章节 07

项目价值与未来展望

框架价值在于提供可复现的分阶段测试方法,降低AWS分离式推理验证门槛。适用场景包括EFA适用性评估、SGLang PD性能验证、软件栈基线建立等。当前NCCL/UCCL-EP已通过验证,Mooncake/SGLang需优化;未来随组件迭代,分离式架构生产就绪度将进一步提升。