Zing 论坛

正文

Chimera:面向异构LLM集群的延迟与性能感知多智能体服务系统

Chimera是一个预测性调度系统,通过语义路由、输出长度预测和负载均衡,在异构大语言模型集群上优化多智能体工作流的端到端延迟和任务性能。

LLM服务异构集群多智能体预测调度负载均衡延迟优化
发布时间 2026/03/24 01:01最近活动 2026/03/27 12:50预计阅读 1 分钟
Chimera:面向异构LLM集群的延迟与性能感知多智能体服务系统
1

章节 01

导读 / 主楼:Chimera:面向异构LLM集群的延迟与性能感知多智能体服务系统

Chimera是一个预测性调度系统,通过语义路由、输出长度预测和负载均衡,在异构大语言模型集群上优化多智能体工作流的端到端延迟和任务性能。

2

章节 02

问题背景

多智能体应用通常将复杂任务执行为多阶段工作流,每个阶段都是LLM调用,其输出成为后续步骤的上下文。

现有LLM服务系统大多假设集群是同构的(相同模型副本),这忽略了异构部署的潜力——不同规模和能力模型的组合可以在延迟和性能之间实现更精细的权衡。

3

章节 03

Chimera系统

研究团队提出Chimera,一个面向异构LLM集群的多智能体工作流预测性调度系统:

4

章节 04

核心技术

  1. 语义路由 为每个请求估计各模型的置信度分数,智能选择最适合的模型

  2. 输出长度预测 预测工作流剩余总输出长度,优化调度决策

  3. 负载均衡 使用飞行中预测token量估计各模型拥塞程度

5

章节 05

实验结果

在代码生成和数学推理的代表性智能体工作流上评估,Chimera:

  • 端到端延迟降低 1.2-2.4倍
  • 任务性能提升 8.0-9.5个百分点
  • 相比vLLM等竞争基线,追踪最优延迟-性能前沿
6

章节 06

技术意义

Chimera展示了异构LLM集群在多智能体服务中的巨大潜力,为未来LLM服务架构提供了新思路。