章节 01
导读:AWS EFA v2 分离式大模型推理验证框架端到端实践
本文介绍由KevinZhao开源的AWS EFA v2分离式大模型推理验证框架,针对AWS EKS环境配合EFA v2 RDMA网络,验证从底层网络性能到上层SGLang Prefill-Decode分离部署的全链路可行性。框架采用四层递进式验证架构,为生产级分离式LLM推理部署提供可复现的测试方法与性能基准。
正文
一套面向生产环境的基础设施验证方案,涵盖从底层 RDMA 网络测试到 SGLang Prefill-Decode 分离部署的完整链路,为在 AWS EKS 上部署高性能 LLM 推理服务提供可复现的基准测试方法
章节 01
本文介绍由KevinZhao开源的AWS EFA v2分离式大模型推理验证框架,针对AWS EKS环境配合EFA v2 RDMA网络,验证从底层网络性能到上层SGLang Prefill-Decode分离部署的全链路可行性。框架采用四层递进式验证架构,为生产级分离式LLM推理部署提供可复现的测试方法与性能基准。
章节 02
传统单节点推理面临显存瓶颈与吞吐量限制,分离式推理将计算密集型Prefill阶段与内存带宽密集型Decode阶段分布在不同节点,优化资源利用。但该架构需解决KV Cache跨节点传输的低延迟、高带宽需求。AWS EFA v2提供RDMA高性能网络,但需系统性验证从硬件到应用的多层软件栈性能。
章节 03
框架第一阶段通过NCCL测试p5.48xlarge实例的all-reduce/all-to-all操作,实测all-reduce带宽达476.91 GB/s(超320GB/s阈值)。第二阶段验证UCCL-EP的低延迟dispatch/combine操作,16个rank通过正确性测试,每rank吞吐约7GB/s,满足功能验证要求。
章节 04
第三阶段使用Mooncake KV传输引擎,DRAM-DRAM写入吞吐为19.31 GB/s(距150GB/s目标有差距,需调优)。第四阶段SGLang Prefill-Decode分离部署(1P:1D)显示TPOT降至单节点基线的0.53倍(Decode加速),但TTFT升高至7.7倍(需优化Prefill开销或调度策略)。
章节 05
框架基于Kubernetes构建,依赖EKS 1.35+、NVIDIA GPU Operator v24.9.2、MPI Operator v0.6.0、LeaderWorkerSet v0.7.0等。提供5个专用容器镜像,建议在EC2 m7i.4xlarge+实例上构建镜像以避免网络瓶颈。
章节 06
项目RUNBOOK.md记录完整测试日志(含失败与修复方法)。工作流程:配置.env参数→构建镜像→创建K8s资源→逐阶段测试。最佳实践包括:确保EFA/OFI配置正确、监控带宽利用率、调整KV Cache传输buffer。
章节 07
框架价值在于提供可复现的分阶段测试方法,降低AWS分离式推理验证门槛。适用场景包括EFA适用性评估、SGLang PD性能验证、软件栈基线建立等。当前NCCL/UCCL-EP已通过验证,Mooncake/SGLang需优化;未来随组件迭代,分离式架构生产就绪度将进一步提升。