正文

GoodServe：面向异构GPU的Agentic LLM推理高吞吐服务系统

本文介绍GoodServe系统，通过预测-修正路由策略、精准输出长度估计和运行时请求迁移，在异构GPU集群上实现Agentic LLM推理的高吞吐服务，相比现有方法提升27.4%的goodput。

LLM推理服务异构GPUAgentic应用Goodput优化请求路由动态迁移SLO满足率

发布时间 2026/05/16 16:01最近活动 2026/05/19 10:21预计阅读 3 分钟

章节 01

导读：GoodServe——异构GPU下Agentic LLM推理的高goodput服务系统

本文介绍GoodServe系统，旨在解决异构GPU集群中Agentic LLM推理服务的调度问题。通过预测-修正路由策略、精准输出长度估计和运行时请求迁移三大核心技术，实现满足SLO请求比例（Goodput）的显著提升，相比现有方法平均提升27.4%。

章节 02

Agentic LLM推理的新挑战与异构GPU背景

随着LLM在Agentic应用中的普及，推理服务需求发生变化：Agentic应用涉及多步骤工作流（规划、工具调用等），用户体验依赖端到端延迟而非单步响应。同时，推理基础设施向异构化发展，资源池混合不同代际GPU（A100/H100/H200等），设备在计算、显存、带宽上差异显著，如何高效调度成为关键问题。

章节 03

核心指标：Goodput的定义与意义

Goodput不同于传统Throughput（处理请求数量），它衡量满足服务等级目标（SLO）的请求比例。对于Agentic应用，SLO通常是端到端延迟上限（如客服Agent要求90%请求2秒内完成）。GoodServe的目标是最大化这一比例，而非单纯追求高并发。

章节 04

GoodServe系统架构：预测-修正路由范式

GoodServe采用预测-修正路由策略，包含三部分：

预测模块

输出长度预测：轻量级预测器估计请求输出token数，为调度提供输入；
GPU状态估计：实时追踪队列长度、显存占用、利用率、KV缓存压力等。

路由决策

采用“够用即可”策略：不过度分配高规格GPU、不欠分配资源、负载均衡，平衡SLO与资源效率。

动态迁移

SLO风险监控：周期性评估请求超时风险；
迁移机制：将高风险请求迁移至合适实例，考虑KV缓存、目标容量、迁移开销和剩余工作量。

章节 05

异构资源建模与阶段感知调度

设备能力画像

不同GPU类型的性能特征：

GPU类型	计算能力	显存容量	适用场景
A100	基准	40/80GB	通用推理
H100	2-3x A100	80GB	大模型/高并发
H200	类似H100	141GB	长上下文/大KV缓存

阶段感知调度

LLM推理分为Prefill（计算密集、并行度高）和Decode（内存密集、自回归）阶段，GoodServe将两阶段分别路由至最适合的GPU实例。

章节 06

实验评估：Goodput提升与关键洞察

在异构A100/H100/H200集群上的评估结果：

平均提升27.4% goodput；
95% SLO要求下，所需SLO尺度降低20.1%；
99% SLO要求下，所需SLO尺度降低33.0%；
最佳情况提升达45.0%（95% SLO）和80.5%（99% SLO）。

关键洞察：

预测精度直接影响路由质量；
动态迁移虽有开销，但显著提升SLO满足率；
异构感知策略优于统一对待的方法。

章节 07

GoodServe的实际部署价值

成本优化

相同硬件服务更多用户；
满足相同服务水平时减少GPU采购；
充分利用异构设备。

用户体验改善

更稳定的响应时间；
更少超时和重试；
流畅的Agentic交互。

渐进式部署

模块化设计，可逐步引入功能；
兼容现有框架（vLLM、TensorRT-LLM）；
无需修改模型或训练流程。

章节 08

局限与未来方向

GoodServe仍有改进空间：

预测模型：当前用启发式，未来可探索学习型预测器；
全局优化：贪心策略非全局最优，需研究NP难问题；
多租户场景：实验为单租户，需考虑隔离与公平性；
模型异构：未来扩展至不同大小模型服务同一应用。