正文

分离式推理架构实战：在AWS EKS上部署llm-d实现70%吞吐量提升

这个开源项目展示了如何在Amazon EKS上部署llm-d分离式推理框架，通过将预填充和解码阶段分离到不同Pod，并借助EFA RDMA实现毫秒级KV缓存传输，将LLM推理吞吐量提升高达70%。

分离式推理LLM推理优化llm-dKubernetesEFA RDMAKV缓存预填充解码分离AWS EKS

发布时间 2026/04/22 16:18最近活动 2026/04/22 16:25预计阅读 3 分钟

章节 01

分离式推理架构实战：AWS EKS上llm-d实现70%吞吐量提升导读

本文介绍一个开源项目，通过在AWS EKS上部署llm-d分离式推理框架，将预填充和解码阶段分离到不同Pod，并利用EFA RDMA实现KV缓存的毫秒级传输，最终使LLM推理吞吐量提升高达70%。该架构解决了传统推理部署中预填充（计算密集）与解码（内存带宽密集）阶段资源需求冲突的问题，为大规模LLM推理服务提供高效解决方案。

章节 02

分离式推理的背景与核心原理

LLM推理包含两个核心阶段：预填充阶段（计算密集型，处理输入提示词生成KV缓存）和解码阶段（内存带宽密集型，逐个生成输出token）。传统部署将两者放在同一GPU，因硬件需求不同导致效率低下。分离式推理的核心是将两阶段分配到不同硬件节点，让各节点专注擅长的工作，提升整体效率。

章节 03

llm-d框架的设计与架构

llm-d是Kubernetes原生的分布式LLM推理框架，核心是解耦推理过程为独立微服务。参考架构中部署2个预填充Pod（张量并行度TP=4）和1个解码Pod（TP=4），通过高速网络传输KV缓存。该架构的灵活性在于可根据请求特征（如长提示短回复或反之）独立扩缩容预填充/解码资源。

章节 04

EFA RDMA：实现KV缓存高速传输的关键

分离式推理的挑战是KV缓存跨节点传输延迟。项目使用AWS EFA的RDMA能力，让GPU直接写入远程内存，绕过操作系统内核和TCP/IP协议栈。技术上采用NIXL库配合libfabric协议，实测KV传输延迟约2毫秒，吞吐量超过1GB/s。使用p5.48xlarge实例（配备32个EFA接口，设为efa-only模式）并置于集群放置组，进一步降低网络延迟。

章节 05

完整基础设施架构详解

项目提供Terraform配置一键部署基础设施：

网络层：跨4个可用区的VPC，配备NAT网关为私有GPU节点提供网络访问；EFA专用安全组配置自引用的入站和出站规则，确保RDMA流量通信。
计算层：系统节点使用m5.2xlarge实例运行Istio网关、监控组件和EPP路由器；GPU节点使用p5.48xlarge实例，每个节点配备8块H100 GPU和32个EFA接口，自定义启动模板配置500GB gp3存储卷。
服务网格：Istio作为服务网格处理流量路由和负载均衡；Gateway API配合Inference Extension CRDs实现推理感知的流量管理。
智能路由：EPP（Endpoint Picker）组件实现缓存感知的请求路由，识别持有特定请求KV缓存的解码Pod，最大化缓存复用率。
可观测性：Prometheus和Grafana提供完整的vLLM指标监控能力。

章节 06

性能表现与提升原因

根据项目文档和AWS博客数据，128个并发请求测试中，分离式架构比标准vLLM部署吞吐量提升约70%。提升原因：

预填充和解码阶段资源不再相互干扰（传统部署中长预填充请求可能阻塞同一GPU上其他请求的解码）；
EPP的缓存感知路由减少不必要的KV缓存重新计算（共享系统提示词的请求路由到同一解码Pod复用缓存）。实际部署日志显示预填充Pod生成吞吐量接近0（约0.1 tokens/s），专注提示词处理；解码Pod专注token生成，分工清晰。

章节 07

部署要点与适用场景

部署流程分三阶段：1. Terraform创建EKS集群和基础设施（约20-25分钟）；2. 配置HuggingFace访问令牌和命名空间；3. Helmfile部署llm-d组件。关键细节：EFA接口需设为efa-only模式（p5.48xlarge实例要求）；GPU节点置于集群放置组确保物理紧邻；安全组需配置自引用规则允许RDMA通信。适用场景：高并发在线推理服务、输入提示词长度变化大的应用、精细化资源管理的生产环境、高吞吐量批量推理任务。局限：增加系统复杂性，需额外EFA基础设施，对Kubernetes运维经验要求高；低并发或请求模式简单场景，标准部署更经济。

章节 08