Zing 论坛

正文

SAGA:面向AI Agent的GPU集群工作流级调度革命

本文解读SAGA调度系统,这是首个将AI Agent工作流作为原子调度单元的GPU集群调度框架,通过KV缓存复用和任务完成时间公平性优化,实现1.64倍的端到端延迟降低。

AI AgentGPU调度LLM推理KV缓存分布式系统vLLM复合AI
发布时间 2026/05/01 17:05最近活动 2026/05/04 11:21预计阅读 2 分钟
SAGA:面向AI Agent的GPU集群工作流级调度革命
1

章节 01

导读:SAGA——AI Agent GPU集群调度的革命性框架

本文解读SAGA调度系统,这是首个将AI Agent工作流作为原子调度单元的GPU集群调度框架。针对现有调度范式将单次LLM调用视为独立请求的缺陷,SAGA通过KV缓存复用预测、会话亲和性批处理与工作窃取、Agent公平份额优化三大核心机制,实现1.64倍的端到端延迟降低,为AI Agent规模化部署提供关键解决方案。

2

章节 02

背景:现有GPU调度范式的根本性缺陷

AI Agent通过链式LLM调用完成复杂任务(如代码生成、网页浏览),形成紧密耦合的工作流。但现有GPU调度器(如vLLM)以单次请求为调度单元,丢弃中间KV缓存,导致重复计算,将端到端延迟放大3-8倍。这种"请求级抽象"与AI Agent需要的"程序级抽象"(工作流为单元)存在根本性错配,制约规模化部署。

3

章节 03

SAGA的三大核心创新机制

1. Agent执行图与KV缓存复用预测

SAGA引入Agent执行图,要求Agent显式声明工作流结构,预测跨步骤的KV缓存复用机会,缓存管理接近Belady最优离线策略(1·31倍以内)。

2. 会话亲和性批处理与工作窃取

优先将同一Agent工作流的请求调度到同一GPU,保证缓存复用;同时通过工作窃取机制平衡负载,避免亲和性导致的过载。

3. Agent公平份额与有界偏差保证

基于任务完成时间度量公平性,确保每个Agent获得 proportional资源份额,并提供可证明的有界偏差保证,防止复杂任务独占资源。

4

章节 04

实验证据:SAGA的性能表现

在64GPU集群测试SWE-bench和WebArena基准负载:

  • 几何平均任务完成时间降低1.64倍(p<0.001);
  • GPU内存利用率提升1.22倍;
  • 多租户场景下SLO达成率99.2%;
  • 优先延迟,峰值吞吐量较纯批处理调度低30%(合理权衡,因Agent负载延迟敏感)。
5

章节 05

结论:SAGA对AI基础设施的意义

SAGA敏锐识别AI Agent工作负载与传统LLM推理的本质差异,通过工作流级调度升级解决性能瓶颈,是AI基础设施领域的重要进步。它不仅提升了Agent任务的执行效率,更反思了AI系统设计的根本方向——工作负载抽象层次需匹配应用范式。

6

章节 06

未来方向与技术启示

SAGA的研究启示:

  1. 编程模型:Agent框架需显式声明执行图;
  2. 硬件设计:GPU需原生支持跨步骤状态保持;
  3. 云原生编排:Kubernetes等需引入工作流级调度原语;
  4. 计费模型:从按token转向按工作流计费更合理。