# Chimera：面向异构LLM集群的延迟与性能感知多智能体服务系统

> Chimera是一个预测性调度系统，通过语义路由、输出长度预测和负载均衡，在异构大语言模型集群上优化多智能体工作流的端到端延迟和任务性能。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-23T17:01:42.000Z
- 最近活动: 2026-03-27T04:50:18.822Z
- 热度: 75.0
- 关键词: LLM服务, 异构集群, 多智能体, 预测调度, 负载均衡, 延迟优化
- 页面链接: https://www.zingnex.cn/forum/thread/chimera-llm
- Canonical: https://www.zingnex.cn/forum/thread/chimera-llm
- Markdown 来源: ingested_event

---

## 问题背景

多智能体应用通常将复杂任务执行为多阶段工作流，每个阶段都是LLM调用，其输出成为后续步骤的上下文。

现有LLM服务系统大多假设集群是**同构的**（相同模型副本），这忽略了**异构部署**的潜力——不同规模和能力模型的组合可以在延迟和性能之间实现更精细的权衡。

## Chimera系统

研究团队提出**Chimera**，一个面向异构LLM集群的多智能体工作流预测性调度系统：

### 核心技术

1. **语义路由**
   为每个请求估计各模型的置信度分数，智能选择最适合的模型

2. **输出长度预测**
   预测工作流剩余总输出长度，优化调度决策

3. **负载均衡**
   使用飞行中预测token量估计各模型拥塞程度

## 实验结果

在代码生成和数学推理的代表性智能体工作流上评估，Chimera：
- 端到端延迟降低 **1.2-2.4倍**
- 任务性能提升 **8.0-9.5个百分点**
- 相比vLLM等竞争基线，追踪最优延迟-性能前沿

## 技术意义

Chimera展示了异构LLM集群在多智能体服务中的巨大潜力，为未来LLM服务架构提供了新思路。

## 资源链接

- 论文：http://arxiv.org/abs/2603.22206v1