Zing 论坛

正文

GoodServe:面向异构GPU的Agentic LLM推理高吞吐服务系统

本文介绍GoodServe系统,通过预测-修正路由策略、精准输出长度估计和运行时请求迁移,在异构GPU集群上实现Agentic LLM推理的高吞吐服务,相比现有方法提升27.4%的goodput。

LLM推理服务异构GPUAgentic应用Goodput优化请求路由动态迁移SLO满足率
发布时间 2026/05/16 16:01最近活动 2026/05/19 10:21预计阅读 3 分钟
GoodServe:面向异构GPU的Agentic LLM推理高吞吐服务系统
1

章节 01

导读:GoodServe——异构GPU下Agentic LLM推理的高goodput服务系统

本文介绍GoodServe系统,旨在解决异构GPU集群中Agentic LLM推理服务的调度问题。通过预测-修正路由策略、精准输出长度估计和运行时请求迁移三大核心技术,实现满足SLO请求比例(Goodput)的显著提升,相比现有方法平均提升27.4%。

2

章节 02

Agentic LLM推理的新挑战与异构GPU背景

随着LLM在Agentic应用中的普及,推理服务需求发生变化:Agentic应用涉及多步骤工作流(规划、工具调用等),用户体验依赖端到端延迟而非单步响应。同时,推理基础设施向异构化发展,资源池混合不同代际GPU(A100/H100/H200等),设备在计算、显存、带宽上差异显著,如何高效调度成为关键问题。

3

章节 03

核心指标:Goodput的定义与意义

Goodput不同于传统Throughput(处理请求数量),它衡量满足服务等级目标(SLO)的请求比例。对于Agentic应用,SLO通常是端到端延迟上限(如客服Agent要求90%请求2秒内完成)。GoodServe的目标是最大化这一比例,而非单纯追求高并发。

4

章节 04

GoodServe系统架构:预测-修正路由范式

GoodServe采用预测-修正路由策略,包含三部分:

预测模块

  • 输出长度预测:轻量级预测器估计请求输出token数,为调度提供输入;
  • GPU状态估计:实时追踪队列长度、显存占用、利用率、KV缓存压力等。

路由决策

采用“够用即可”策略:不过度分配高规格GPU、不欠分配资源、负载均衡,平衡SLO与资源效率。

动态迁移

  • SLO风险监控:周期性评估请求超时风险;
  • 迁移机制:将高风险请求迁移至合适实例,考虑KV缓存、目标容量、迁移开销和剩余工作量。
5

章节 05

异构资源建模与阶段感知调度

设备能力画像

不同GPU类型的性能特征:

GPU类型 计算能力 显存容量 适用场景
A100 基准 40/80GB 通用推理
H100 2-3x A100 80GB 大模型/高并发
H200 类似H100 141GB 长上下文/大KV缓存

阶段感知调度

LLM推理分为Prefill(计算密集、并行度高)和Decode(内存密集、自回归)阶段,GoodServe将两阶段分别路由至最适合的GPU实例。

6

章节 06

实验评估:Goodput提升与关键洞察

在异构A100/H100/H200集群上的评估结果:

  • 平均提升27.4% goodput;
  • 95% SLO要求下,所需SLO尺度降低20.1%;
  • 99% SLO要求下,所需SLO尺度降低33.0%;
  • 最佳情况提升达45.0%(95% SLO)和80.5%(99% SLO)。

关键洞察:

  1. 预测精度直接影响路由质量;
  2. 动态迁移虽有开销,但显著提升SLO满足率;
  3. 异构感知策略优于统一对待的方法。
7

章节 07

GoodServe的实际部署价值

成本优化

  • 相同硬件服务更多用户;
  • 满足相同服务水平时减少GPU采购;
  • 充分利用异构设备。

用户体验改善

  • 更稳定的响应时间;
  • 更少超时和重试;
  • 流畅的Agentic交互。

渐进式部署

  • 模块化设计,可逐步引入功能;
  • 兼容现有框架(vLLM、TensorRT-LLM);
  • 无需修改模型或训练流程。
8

章节 08

局限与未来方向

GoodServe仍有改进空间:

  • 预测模型:当前用启发式,未来可探索学习型预测器;
  • 全局优化:贪心策略非全局最优,需研究NP难问题;
  • 多租户场景:实验为单租户,需考虑隔离与公平性;
  • 模型异构:未来扩展至不同大小模型服务同一应用。