章节 01
导读:GoodServe——异构GPU下Agentic LLM推理的高goodput服务系统
本文介绍GoodServe系统,旨在解决异构GPU集群中Agentic LLM推理服务的调度问题。通过预测-修正路由策略、精准输出长度估计和运行时请求迁移三大核心技术,实现满足SLO请求比例(Goodput)的显著提升,相比现有方法平均提升27.4%。
正文
本文介绍GoodServe系统,通过预测-修正路由策略、精准输出长度估计和运行时请求迁移,在异构GPU集群上实现Agentic LLM推理的高吞吐服务,相比现有方法提升27.4%的goodput。
章节 01
本文介绍GoodServe系统,旨在解决异构GPU集群中Agentic LLM推理服务的调度问题。通过预测-修正路由策略、精准输出长度估计和运行时请求迁移三大核心技术,实现满足SLO请求比例(Goodput)的显著提升,相比现有方法平均提升27.4%。
章节 02
随着LLM在Agentic应用中的普及,推理服务需求发生变化:Agentic应用涉及多步骤工作流(规划、工具调用等),用户体验依赖端到端延迟而非单步响应。同时,推理基础设施向异构化发展,资源池混合不同代际GPU(A100/H100/H200等),设备在计算、显存、带宽上差异显著,如何高效调度成为关键问题。
章节 03
Goodput不同于传统Throughput(处理请求数量),它衡量满足服务等级目标(SLO)的请求比例。对于Agentic应用,SLO通常是端到端延迟上限(如客服Agent要求90%请求2秒内完成)。GoodServe的目标是最大化这一比例,而非单纯追求高并发。
章节 04
GoodServe采用预测-修正路由策略,包含三部分:
采用“够用即可”策略:不过度分配高规格GPU、不欠分配资源、负载均衡,平衡SLO与资源效率。
章节 05
不同GPU类型的性能特征:
| GPU类型 | 计算能力 | 显存容量 | 适用场景 |
|---|---|---|---|
| A100 | 基准 | 40/80GB | 通用推理 |
| H100 | 2-3x A100 | 80GB | 大模型/高并发 |
| H200 | 类似H100 | 141GB | 长上下文/大KV缓存 |
LLM推理分为Prefill(计算密集、并行度高)和Decode(内存密集、自回归)阶段,GoodServe将两阶段分别路由至最适合的GPU实例。
章节 06
在异构A100/H100/H200集群上的评估结果:
关键洞察:
章节 07
章节 08
GoodServe仍有改进空间: