正文

HexAGenT：面向智能体工作流的异构感知调度系统

HexAGenT是一个面向智能体LLM应用的工作流感知调度器，通过在线DAG建模和风险感知优先级策略，在异构GPU集群上显著降低工作流级延迟，提升SLO达成率。

智能体LLM工作流调度异构GPU预填充-解码分离SLO优化在线DAGLLM服务

发布时间 2026/05/16 05:09最近活动 2026/05/19 10:54预计阅读 2 分钟

章节 01

HexAGenT：面向智能体工作流的异构感知调度系统导读

HexAGenT是一款针对智能体LLM应用的工作流感知调度器，旨在异构GPU集群上优化工作流端到端延迟与SLO达成率。核心技术包括在线DAG建模、风险感知优先级策略及联合资源选择，能显著降低SLO规模并提升异构资源利用率。

章节 02

智能体LLM应用的工作流调度挑战

智能体LLM应用将用户请求转化为多步骤工作流，需关注端到端延迟而非单调用性能。其调度面临三大挑战：1. 工作流依赖关系在运行时逐步揭示，需在线决策；2. 异构GPU集群（如A100/H100/H200混合）下，预填充/解码阶段需求差异大；3. 需以全局视野保障工作流级SLO目标。

章节 03

HexAGenT架构：工作流感知的智能调度设计

HexAGenT的核心设计包括：1. 在线DAG建模：动态跟踪工作流结构，识别就绪调用与瓶颈；2. 完成时间预估：基于已完成调用耗时、待执行预测及系统负载，为决策提供基准；3. 风险感知优先级：优先调度对工作流完成时间影响大且风险高的调用；4. 联合资源选择：综合预填充/解码GPU放置及本地队列优先级，优化KV缓存与传输延迟。

章节 04

实验结果：SLO提升与异构资源利用

在异构A100/H100/H200集群上的实验显示：1. SLO规模显著缩减：95%达成率下平均减少20.1%（最大45%），99%达成率下平均减少33%（最大80.5%）；2. 异构资源利用优化：A100适合计算密集型预填充，H100/H200适合长序列解码，调度器可动态匹配任务与GPU类型。

章节 05

技术洞察：HexAGenT有效的关键因素

HexAGenT成功源于三大洞察：1. 工作流级优化：优先保障关键路径调用，最小化端到端延迟；2. 异构感知匹配：根据任务特性（预填充/解码需求、序列长度等）选择最优GPU；3. 在线适应性：动态调整策略以适应工作流运行时揭示的依赖结构。

章节 06

HexAGenT的实际部署价值

对生产环境的价值包括：1. 成本效益：相同硬件支持更多用户或复杂应用，降低硬件成本；2. SLO保障：显著改进尾部延迟（99%达成率提升），提供一致用户体验；3. 混合集群利用：高效利用数据中心混合GPU配置，避免资源隔离。

章节 07

局限与未来探索方向

HexAGenT仍需优化：1. 适应更复杂智能体模式（如循环、并行工具调用）；2. 支持多租户场景，平衡公平性与全局效率；3. 与模型优化（投机解码、量化等）协同，实现端到端效率最大化。

章节 08

结论：智能体LLM服务优化的新方向

HexAGenT标志着智能体LLM服务优化从单调用转向工作流级的新方向。通过在线DAG建模、风险感知优先级等技术，在异构集群上实现显著SLO改进。随着智能体应用成为主流，这种工作流感知调度将愈发重要。

HexAGenT：面向智能体工作流的异构感知调度系统

HexAGenT：面向智能体工作流的异构感知调度系统导读

智能体LLM应用的工作流调度挑战

HexAGenT架构：工作流感知的智能调度设计

实验结果：SLO提升与异构资源利用

技术洞察：HexAGenT有效的关键因素

HexAGenT的实际部署价值

局限与未来探索方向

结论：智能体LLM服务优化的新方向

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统