正文

在AWS EKS上部署流式LLM推理服务的实践指南

一个完整的Terraform基础设施项目，展示如何在Amazon EKS上部署vLLM推理服务，实现生产级的流式大语言模型推理能力。

vLLMEKSAWSKubernetesLLM推理流式生成Terraform云原生部署实践

发布时间 2026/04/27 04:40最近活动 2026/04/27 04:52预计阅读 4 分钟

章节 01

导读 / 主楼：在AWS EKS上部署流式LLM推理服务的实践指南

一个完整的Terraform基础设施项目，展示如何在Amazon EKS上部署vLLM推理服务，实现生产级的流式大语言模型推理能力。

章节 02

项目概述

随着大语言模型（LLM）在企业应用中的普及，如何在云原生环境中高效部署推理服务成为关键挑战。Nicolas-Richard开源的vllm-on-eks项目提供了一个完整的解决方案，展示了如何在Amazon Elastic Kubernetes Service（EKS）上部署vLLM，实现生产级的流式LLM推理能力。

该项目作为配套代码仓库，与博客文章《Streaming LLM inference on EKS》相辅相成，为读者提供了从基础设施搭建到应用部署的完整实践路径。

章节 03

vLLM：高性能推理引擎

vLLM是一个开源的大语言模型推理和服务引擎，由加州大学伯克利分校的研究团队开发。其核心创新包括：

PagedAttention算法：通过将注意力键值缓存分页管理，大幅减少GPU内存碎片，提升吞吐量
连续批处理：动态调度请求，最大化GPU利用率
流式生成：支持Server-Sent Events（SSE）格式的流式输出，改善用户体验
多模型支持：兼容Hugging Face生态中的主流模型架构

章节 04

Amazon EKS：托管Kubernetes服务

Amazon EKS是AWS提供的托管Kubernetes服务，为企业级容器编排提供：

高可用控制平面：跨多个可用区自动分布
安全集成：与AWS IAM、VPC、安全组深度集成
弹性扩展：支持Cluster Autoscaler和Karpenter实现节点自动扩缩容
GPU实例支持：提供P4d、P5等高性能GPU实例类型

章节 05

分层基础设施架构

该项目采用清晰的分层架构，将基础设施划分为两个Terraform子项目：

1. EKS基础层（infra/eks-foundation）

这一层负责构建和配置EKS集群本身，包括：

VPC网络：配置私有子网、公有子网和NAT网关
EKS控制平面：创建和管理Kubernetes集群
节点组配置：设置GPU实例类型的托管节点组
核心附加组件：部署CoreDNS、kube-proxy、VPC CNI等必需组件
IAM角色和权限：配置集群和节点的IAM角色

2. 平台应用层（infra/platform-apps）

这一层在EKS集群之上部署具体的应用组件：

vLLM服务部署：通过Helm chart部署vLLM推理服务
FastAPI网关：构建和部署自定义的API网关服务
负载均衡器：配置AWS Application Load Balancer
自动扩缩容：设置HPA（Horizontal Pod Autoscaler）实现Pod级弹性
监控和日志：集成CloudWatch或Prometheus进行可观测性

章节 06

容器镜像管理策略

项目采用了智能的镜像构建和推送策略：

ECR仓库：在AWS Elastic Container Registry中创建私有镜像仓库
内容哈希触发：通过terraform_data资源监听FastAPI网关代码的内容哈希变化
自动构建推送：当代码变更时，自动触发镜像重建和推送

这种设计确保了镜像版本与代码版本的一致性，同时避免了不必要的重复构建。

章节 07

部署工作流详解

项目通过根目录的Makefile封装了日常操作，提供了简洁的命令行接口：

章节 08

核心命令

命令	功能描述
`make deploy`	完整部署流程：引导ECR仓库，然后执行完整的`platform-apps`应用部署
`make ecr-bootstrap`	仅创建ECR仓库，首次部署前需要执行
`make terraform-apply`	在`infra/platform-apps`中执行Terraform apply
`make destroy`	销毁`platform-apps`资源（保留EKS集群）
`make gateway-url`	输出网关的公共NLB URL
`make gateway-token`	输出访问令牌
`make gateway-info`	同时输出URL和令牌
`make gateway-test`	流式聊天完成测试，输出原始SSE块（用于调试）
`make gateway-chat`	流式聊天完成，仅输出助手文本到stdout