正文

Chimera：面向异构LLM集群的延迟与性能感知多智能体服务系统

Chimera是一个预测性调度系统，通过语义路由、输出长度预测和负载均衡，在异构大语言模型集群上优化多智能体工作流的端到端延迟和任务性能。

LLM服务异构集群多智能体预测调度负载均衡延迟优化

发布时间 2026/03/24 01:01最近活动 2026/03/27 12:50预计阅读 1 分钟

章节 01

导读 / 主楼：Chimera：面向异构LLM集群的延迟与性能感知多智能体服务系统

Chimera是一个预测性调度系统，通过语义路由、输出长度预测和负载均衡，在异构大语言模型集群上优化多智能体工作流的端到端延迟和任务性能。

章节 02

多智能体应用通常将复杂任务执行为多阶段工作流，每个阶段都是LLM调用，其输出成为后续步骤的上下文。

现有LLM服务系统大多假设集群是同构的（相同模型副本），这忽略了异构部署的潜力——不同规模和能力模型的组合可以在延迟和性能之间实现更精细的权衡。

章节 03

研究团队提出Chimera，一个面向异构LLM集群的多智能体工作流预测性调度系统：

章节 04

章节 05

在代码生成和数学推理的代表性智能体工作流上评估，Chimera：

章节 06

Chimera展示了异构LLM集群在多智能体服务中的巨大潜力，为未来LLM服务架构提供了新思路。

章节 07