# HexAGenT：面向智能体工作流的异构感知调度系统

> HexAGenT是一个面向智能体LLM应用的工作流感知调度器，通过在线DAG建模和风险感知优先级策略，在异构GPU集群上显著降低工作流级延迟，提升SLO达成率。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-15T21:09:34.000Z
- 最近活动: 2026-05-19T02:54:55.981Z
- 热度: 86.0
- 关键词: 智能体LLM, 工作流调度, 异构GPU, 预填充-解码分离, SLO优化, 在线DAG, LLM服务
- 页面链接: https://www.zingnex.cn/forum/thread/hexagent
- Canonical: https://www.zingnex.cn/forum/thread/hexagent
- Markdown 来源: ingested_event

---

## 引言：从单次推理到工作流级优化

智能体（Agentic）LLM应用正在快速发展，它们将用户请求执行为多步骤工作流，涉及规划、工具使用、分支、优化和综合等多个阶段。在这种场景下，用户体验的不是单个LLM调用的延迟，而是**整个工作流的端到端延迟**。

传统的LLM服务优化主要关注单次推理的吞吐量或延迟，但对于智能体应用来说，这种优化视角过于局限。一个智能体工作流可能包含数十个LLM调用，这些调用之间存在复杂的依赖关系，而且工作流的结构往往在运行时才逐步揭示。

## 核心挑战：异构环境下的工作流调度难题

在异构的预填充-解码分离（prefill-decode disaggregated）LLM服务集群上调度在线智能体工作流面临多重挑战：

### 1. 运行时依赖揭示

工作流的依赖关系不是预先完全已知的，而是在执行过程中逐步揭示的。这要求调度器具备**在线决策**能力，能够根据新揭示的信息动态调整调度策略。

### 2. 异构性挑战

不同的LLM调用具有异构的提示（prompts）、输出长度和KV缓存需求。预填充（prefill）和解码（decode）阶段对计算、内存和跨阶段传输的要求也各不相同。在异构GPU（如A100/H100/H200混合集群）上，这些差异进一步复杂化。

### 3. 工作流级SLO目标

用户关心的是整个工作流是否能在规定时间内完成，而不是单个调用的性能。这要求调度器具备**全局视野**，能够评估每个调度决策对整个工作流完成时间的影响。

## HexAGenT架构：工作流感知的智能调度

HexAGenT是一个面向异构预填充-解码推理服务的工作流感知调度器，其核心设计包括：

### 在线DAG建模

HexAGenT将每个请求建模为一个**在线揭示的有向无环图（DAG）**。随着工作流执行，新的节点（LLM调用）和边（依赖关系）逐步添加到图中。这种表示方式允许调度器：

- 跟踪工作流的动态结构
- 识别就绪的调用（所有依赖已满足）
- 评估关键路径和瓶颈

### 完成时间预估

调度器维护一个工作流独立完成时间的运行估计。这个估计基于：

- 已完成的调用实际耗时
- 待执行调用的预测耗时
- 当前系统负载状况

这种预估为调度决策提供了时间基准。

### 风险感知优先级

HexAGenT根据**错过完成时间目标的风险**来优先化就绪调用。具体来说：

- 计算每个就绪调用对工作流完成时间的潜在影响
- 评估在异构资源上执行该调用的预期延迟
- 优先调度那些对工作流完成时间影响最大且风险最高的调用

### 联合资源选择

调度器同时决策：

- **预填充放置**：选择哪个GPU执行预填充阶段
- **解码放置**：选择哪个GPU执行解码阶段
- **本地队列优先级**：在选定GPU上的队列中的优先级

这些决策综合考虑KV缓存容量和跨阶段传输延迟，以实现全局最优。

## 实验结果：显著的性能提升

研究团队在代表性的智能体工作负载和异构A100/H100/H200集群上评估了HexAGenT，结果令人印象深刻：

### SLO规模缩减

- **95%达成率**：平均减少**20.1%**的SLO规模，最大减少**45.0%**
- **99%达成率**：平均减少**33.0%**的SLO规模，最大减少**80.5%**

这意味着，在相同的SLO要求下，HexAGenT可以支持更大规模的智能体工作流；或者在相同的工作流复杂度下，可以满足更严格的延迟要求。

### 异构集群的优势利用

HexAGenT特别擅长利用异构集群的特性：

- **A100**：适合处理计算密集型预填充任务
- **H100/H200**：凭借更大的内存带宽和HBM容量，更适合长序列解码

调度器的联合决策能力使其能够根据任务特性动态匹配最合适的GPU资源。

## 技术洞察：为什么HexAGenT有效

HexAGenT的成功源于几个关键的技术洞察：

### 工作流级优化 vs 调用级优化

传统调度器优化单个调用的性能，但智能体应用需要的是工作流级优化。HexAGenT的风险感知优先级策略确保关键路径上的调用优先获得资源，从而最小化工作流完成时间。

### 异构感知的资源匹配

不同类型的GPU有不同的优势。HexAGenT的联合放置决策能够根据任务的预填充/解码特性、序列长度、KV缓存需求等因素，选择最合适的GPU类型。

### 在线适应的重要性

智能体工作流的动态性要求调度器具备在线适应能力。HexAGenT的DAG模型和运行估计机制使其能够随着工作流执行不断调整策略，适应实际揭示的依赖结构。

## 实际部署价值

对于生产环境的LLM服务提供商，HexAGenT提供了重要的实用价值：

### 成本效益

通过更高效的资源利用，HexAGenT可以在相同硬件投资下支持更多用户或更复杂的智能体应用，或者降低满足相同服务水平的硬件成本。

### SLO保障

特别是在99%达成率上的显著改进（平均33%缩减，最大80.5%），意味着HexAGenT能够更好地保障尾部延迟，提供更一致的用户体验。

### 异构集群的充分利用

许多数据中心拥有混合GPU配置。HexAGenT的异构感知调度使得这些混合集群能够被高效利用，而不是被迫将不同GPU类型隔离到独立的服务池。

## 局限与未来方向

尽管HexAGenT取得了显著进展，仍有若干方向值得进一步探索：

### 更复杂的智能体模式

当前评估主要基于代表性的智能体工作负载。随着智能体架构的演进（如更复杂的循环、条件分支、并行工具调用），调度器需要适应更复杂的控制流模式。

### 多租户场景

在多租户环境中，不同用户可能有不同的优先级和SLO要求。如何在保证公平性的同时优化全局效率是一个开放问题。

### 与模型优化的协同

HexAGenT专注于系统层面的调度优化。未来可以与模型层面的优化（如投机解码、量化、蒸馏）结合，实现端到端的最大化效率。

## 结论

HexAGenT代表了智能体LLM服务优化的新方向——从关注单次推理转向关注工作流级性能。通过在线DAG建模、风险感知优先级和联合资源选择，HexAGenT在异构集群上实现了显著的SLO改进。随着智能体应用成为LLM部署的主流形态，这种工作流感知的调度方法将变得越来越重要。