章节 01
导读 / 主楼:Chimera:面向异构LLM集群的延迟与性能感知多智能体服务系统
Chimera是一个预测性调度系统,通过语义路由、输出长度预测和负载均衡,在异构大语言模型集群上优化多智能体工作流的端到端延迟和任务性能。
正文
Chimera是一个预测性调度系统,通过语义路由、输出长度预测和负载均衡,在异构大语言模型集群上优化多智能体工作流的端到端延迟和任务性能。
章节 01
Chimera是一个预测性调度系统,通过语义路由、输出长度预测和负载均衡,在异构大语言模型集群上优化多智能体工作流的端到端延迟和任务性能。
章节 02
多智能体应用通常将复杂任务执行为多阶段工作流,每个阶段都是LLM调用,其输出成为后续步骤的上下文。
现有LLM服务系统大多假设集群是同构的(相同模型副本),这忽略了异构部署的潜力——不同规模和能力模型的组合可以在延迟和性能之间实现更精细的权衡。
章节 03
研究团队提出Chimera,一个面向异构LLM集群的多智能体工作流预测性调度系统:
章节 04
语义路由 为每个请求估计各模型的置信度分数,智能选择最适合的模型
输出长度预测 预测工作流剩余总输出长度,优化调度决策
负载均衡 使用飞行中预测token量估计各模型拥塞程度
章节 05
在代码生成和数学推理的代表性智能体工作流上评估,Chimera:
章节 06
Chimera展示了异构LLM集群在多智能体服务中的巨大潜力,为未来LLM服务架构提供了新思路。
章节 07