# Scepsy：面向多智能体工作流的聚合式LLM服务系统

> Scepsy通过构建聚合LLM流水线，利用各模型执行时间占比的稳定性来优化GPU资源分配，在真实智能体工作流上实现了2.4倍吞吐提升和27倍延迟降低。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-16T16:15:29.000Z
- 最近活动: 2026-04-17T02:17:56.313Z
- 热度: 126.0
- 关键词: 智能体工作流, LLM服务系统, GPU调度, 资源优化, 聚合流水线
- 页面链接: https://www.zingnex.cn/forum/thread/scepsy-llm
- Canonical: https://www.zingnex.cn/forum/thread/scepsy-llm
- Markdown 来源: ingested_event

---

# Scepsy：面向多智能体工作流的聚合式LLM服务系统

## 背景与挑战

随着大型语言模型（LLM）能力的不断演进，基于智能体（Agent）的工作流正在成为处理复杂任务的主流范式。这类工作流通过协调多个LLM和外部工具，能够完成从代码生成到多步骤推理的各类复杂任务。然而，将这些智能体工作流部署到生产环境并保证服务质量，面临着前所未有的挑战。

核心难点在于智能体工作流的执行特性与传统机器学习服务截然不同。首先，工作流的执行路径具有高度的不确定性——根据输入数据的不同，执行可能会分支、发散或递归，导致难以预测端到端的延迟。其次，现代智能体工作流往往需要同时调用多个不同的LLM，这些模型的数量通常远超可用的GPU资源，造成严重的GPU oversubscription问题。最后，不同的智能体框架（如LangChain、AutoGPT等）有着各自的执行语义，使得通用的调度策略难以设计。

现有的LLM服务系统大多专注于单一模型的优化，或者依赖用户手动指定资源分配，这些方法无法应对智能体工作流的动态性和复杂性。因此，业界迫切需要一种能够自动、高效地调度多LLM智能体工作流的新型服务系统。

## Scepsy的核心洞察

Scepsy的设计基于一个关键观察：尽管单个智能体工作流的端到端延迟难以预测，但各个LLM在总执行时间中所占的比例却相对稳定。这一发现打破了传统思路的局限——与其试图预测不可知的端到端延迟，不如利用可预测的组件级时间占比来指导资源分配决策。

基于这一洞察，Scepsy引入了两个核心抽象。首先是**Aggregate LLM Pipeline（聚合LLM流水线）**，这是一个轻量级的延迟/吞吐量预测器，能够根据给定的GPU资源配置快速估算工作流的性能表现。其次是**分层启发式调度器**，它负责将计算出的最优配置映射到实际的GPU集群拓扑上，同时最小化资源碎片并满足网络约束。

## 系统架构与工作流程

Scepsy的部署流程分为三个主要阶段：性能剖析、配置搜索和集群放置。

### 性能剖析阶段

在系统上线前，Scepsy会对工作流中涉及的每个LLM进行离线剖析。不同于传统的端到端基准测试，这里的剖析关注的是模型在不同并行度（tensor parallelism degrees）下的性能特征。通过收集这些细粒度的性能数据，Scepsy建立起每个LLM的资源需求画像。

### 配置搜索阶段

有了性能剖析数据后，Scepsy利用聚合LLM流水线在庞大的配置空间中进行高效搜索。搜索空间涵盖三个维度：

- **分数GPU份额（Fractional GPU shares）**：允许单个GPU被多个模型共享，提高资源利用率
- **张量并行度（Tensor parallelism degrees）**：决定每个模型实例使用的GPU数量
- **副本数量（Replica counts）**：控制每个模型的并行实例数

聚合LLM流水线通过组合各组件的性能预测，快速评估不同配置对工作流整体延迟和吞吐量的影响，从而找出满足目标吞吐量的最小延迟配置。

### 集群放置阶段

找到最优配置后，Scepsy的分层启发式调度器将其映射到物理GPU集群。这一过程需要考虑实际的拓扑约束——例如，张量并行要求模型副本的GPU必须在物理上邻近，以最小化通信开销。调度器采用分层策略：首先将模型副本打包到节点级别，然后在机架级别进行布局，最终生成一个兼顾性能和资源效率的放置方案。

## 实验评估与关键结果

研究团队在多个真实的智能体工作流上评估了Scepsy的性能，包括代码生成、多轮对话和工具调用等典型场景。实验结果令人印象深刻：

相比独立优化每个LLM的传统方法，Scepsy实现了**最高2.4倍的吞吐量提升**。这一改进源于系统能够识别工作流中的关键路径，并为其分配更多的GPU资源，而非平均分配。

在延迟方面，Scepsy相比依赖用户指定配置的系统实现了**最高27倍的延迟降低**。这一巨大提升归因于配置搜索阶段能够找到真正最优的资源分配方案，避免了人工配置的盲目性。

更重要的是，这些性能提升是在不修改智能体工作流代码、不限制使用特定框架的前提下实现的。Scepsy的通用性使其能够服务于任意基于LLM的智能体工作流，为智能体应用的规模化部署提供了坚实基础。

## 技术意义与行业影响

Scepsy的发布标志着LLM服务系统从单模型优化向多模型协同优化的重要转变。随着智能体工作流在各行各业的普及，如何高效地服务这些复杂应用将成为基础设施层面的核心挑战。

从更宏观的视角看，Scepsy代表了AI系统软件的一个重要发展方向：通过深入理解工作负载特性（此处是执行时间占比的稳定性），设计出针对性的资源管理策略。这种 workload-aware 的设计理念有望在未来的AI基础设施中得到更广泛的应用。

对于开发者和企业而言，Scepsy意味着可以更经济、更高效地部署智能体应用。不再需要为峰值负载预留大量GPU资源，也无需雇佣专家团队手动调优配置——系统能够自动找到最优解，让开发者专注于应用逻辑本身。

## 总结与展望

Scepsy通过聚合LLM流水线和分层启发式调度，成功解决了多LLM智能体工作流的服务难题。其核心贡献在于识别并利用执行时间占比的稳定性，将复杂的端到端优化问题转化为可管理的组件级优化问题。

展望未来，随着智能体工作流的复杂度持续提升（例如涉及数十个LLM的协作），资源调度将面临更大的挑战。Scepsy的架构具有良好的扩展性，其设计原则——利用工作负载特性指导资源决策——将继续发挥价值。同时，如何在在线场景下动态调整配置以适应工作负载变化，也是值得探索的方向。
