正文

SAGA：面向AI Agent的GPU集群工作流级调度革命

本文解读SAGA调度系统，这是首个将AI Agent工作流作为原子调度单元的GPU集群调度框架，通过KV缓存复用和任务完成时间公平性优化，实现1.64倍的端到端延迟降低。

AI AgentGPU调度LLM推理KV缓存分布式系统vLLM复合AI

发布时间 2026/05/01 17:05最近活动 2026/05/04 11:21预计阅读 2 分钟

章节 01

导读：SAGA——AI Agent GPU集群调度的革命性框架

本文解读SAGA调度系统，这是首个将AI Agent工作流作为原子调度单元的GPU集群调度框架。针对现有调度范式将单次LLM调用视为独立请求的缺陷，SAGA通过KV缓存复用预测、会话亲和性批处理与工作窃取、Agent公平份额优化三大核心机制，实现1.64倍的端到端延迟降低，为AI Agent规模化部署提供关键解决方案。

章节 02

背景：现有GPU调度范式的根本性缺陷

AI Agent通过链式LLM调用完成复杂任务（如代码生成、网页浏览），形成紧密耦合的工作流。但现有GPU调度器（如vLLM）以单次请求为调度单元，丢弃中间KV缓存，导致重复计算，将端到端延迟放大3-8倍。这种"请求级抽象"与AI Agent需要的"程序级抽象"（工作流为单元）存在根本性错配，制约规模化部署。

章节 03

SAGA的三大核心创新机制

1. Agent执行图与KV缓存复用预测

SAGA引入Agent执行图，要求Agent显式声明工作流结构，预测跨步骤的KV缓存复用机会，缓存管理接近Belady最优离线策略（1·31倍以内）。

2. 会话亲和性批处理与工作窃取

优先将同一Agent工作流的请求调度到同一GPU，保证缓存复用；同时通过工作窃取机制平衡负载，避免亲和性导致的过载。

3. Agent公平份额与有界偏差保证

基于任务完成时间度量公平性，确保每个Agent获得 proportional资源份额，并提供可证明的有界偏差保证，防止复杂任务独占资源。

章节 04

实验证据：SAGA的性能表现

在64GPU集群测试SWE-bench和WebArena基准负载：

几何平均任务完成时间降低1.64倍（p<0.001）；
GPU内存利用率提升1.22倍；
多租户场景下SLO达成率99.2%；
优先延迟，峰值吞吐量较纯批处理调度低30%（合理权衡，因Agent负载延迟敏感）。

章节 05

结论：SAGA对AI基础设施的意义

SAGA敏锐识别AI Agent工作负载与传统LLM推理的本质差异，通过工作流级调度升级解决性能瓶颈，是AI基础设施领域的重要进步。它不仅提升了Agent任务的执行效率，更反思了AI系统设计的根本方向——工作负载抽象层次需匹配应用范式。

章节 06

未来方向与技术启示

SAGA的研究启示：

编程模型：Agent框架需显式声明执行图；
硬件设计：GPU需原生支持跨步骤状态保持；
云原生编排：Kubernetes等需引入工作流级调度原语；
计费模型：从按token转向按工作流计费更合理。

SAGA：面向AI Agent的GPU集群工作流级调度革命

导读：SAGA——AI Agent GPU集群调度的革命性框架

背景：现有GPU调度范式的根本性缺陷

SAGA的三大核心创新机制

1. Agent执行图与KV缓存复用预测

2. 会话亲和性批处理与工作窃取

3. Agent公平份额与有界偏差保证

实验证据：SAGA的性能表现

结论：SAGA对AI基础设施的意义

未来方向与技术启示

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现