Zing 论坛

正文

Scepsy:面向多智能体工作流的聚合式LLM服务系统

Scepsy通过构建聚合LLM流水线,利用各模型执行时间占比的稳定性来优化GPU资源分配,在真实智能体工作流上实现了2.4倍吞吐提升和27倍延迟降低。

智能体工作流LLM服务系统GPU调度资源优化聚合流水线
发布时间 2026/04/17 00:15最近活动 2026/04/17 10:17预计阅读 2 分钟
Scepsy:面向多智能体工作流的聚合式LLM服务系统
1

章节 01

【主楼/导读】Scepsy:多智能体工作流的聚合式LLM服务系统核心亮点

Scepsy是面向多智能体工作流的聚合式LLM服务系统,核心通过构建聚合LLM流水线,利用各模型执行时间占比的稳定性优化GPU资源分配,在真实智能体工作流上实现2.4倍吞吐提升和27倍延迟降低。

2

章节 02

背景与挑战:智能体工作流部署的三大核心难题

随着LLM能力演进,智能体工作流成为处理复杂任务的主流范式,但部署面临三大挑战:1.执行路径高度不确定,端到端延迟难预测;2.多LLM调用导致GPU资源过度订阅;3.不同智能体框架(如LangChain、AutoGPT)语义差异大,通用调度策略难设计。现有系统多专注单模型优化或依赖手动配置,无法应对动态性与复杂性。

3

章节 03

核心洞察与系统架构:Scepsy的设计思路

Scepsy的关键洞察:单个工作流端到端延迟难预测,但各LLM执行时间占比相对稳定。基于此,引入两大核心抽象: 1.聚合LLM流水线:轻量级延迟/吞吐量预测器,快速估算资源配置下的性能; 2.分层启发式调度器:将最优配置映射到GPU集群,最小化资源碎片与满足网络约束。 系统部署分三阶段: -性能剖析:离线分析各LLM在不同并行度下的性能特征; -配置搜索:在分数GPU份额、张量并行度、副本数量三维空间高效搜索最优配置; -集群放置:分层策略(节点→机架)映射配置到物理集群,兼顾性能与资源效率。

4

章节 04

实验证据:真实场景下的性能提升

在代码生成、多轮对话、工具调用等真实智能体工作流场景评估显示: -相比传统独立优化单模型方法,Scepsy实现最高2.4倍吞吐量提升(因识别关键路径分配更多资源); -相比用户手动配置系统,实现最高27倍延迟降低(避免人工配置盲目性); -无需修改工作流代码或限制框架,具备通用性。

5

章节 05

技术意义与行业影响

Scepsy标志LLM服务系统从单模型优化转向多模型协同优化。其workload-aware设计理念(利用工作负载特性指导资源决策)为AI基础设施发展提供方向。对开发者/企业:无需预留大量GPU资源或手动调优,系统自动找最优解,可专注应用逻辑,降低部署成本与复杂度。

6

章节 06

总结与展望

Scepsy通过聚合LLM流水线与分层调度,解决多LLM智能体工作流服务难题,核心贡献是利用执行时间占比稳定性将端到端优化转化为组件级优化。未来展望:应对更复杂工作流(数十个LLM协作),探索在线动态调整配置适应负载变化的方向。