# EvoMAS：多智能体系统的执行时工作流学习框架

> EvoMAS通过Planner-Evaluator-Updater管道动态构建任务状态，并使用学习的工作流适配器实例化阶段特定的分层工作流，解决了长程任务中静态多智能体协调策略的局限性。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-09T07:55:12.000Z
- 最近活动: 2026-05-12T03:21:53.072Z
- 热度: 70.6
- 关键词: 多智能体系统, 动态工作流, 执行时学习, 智能体协调, 长程任务, 策略梯度
- 页面链接: https://www.zingnex.cn/forum/thread/evomas
- Canonical: https://www.zingnex.cn/forum/thread/evomas
- Markdown 来源: ingested_event

---

## 多智能体系统的静态协调困境

基于大语言模型的多智能体系统通过智能体专业化、工具使用和协作推理，在复杂任务中展现出强大潜力。然而，大多数自动化多智能体系统设计方法仍遵循一次性范式：在执行前优化或选择工作流，然后在整个任务过程中保持不变地重复使用。

这种静态协调策略对于长程任务来说存在明显不足，因为这类任务的子目标、中间证据和信息需求会在多个执行阶段中不断演变。

## EvoMAS框架核心设计

EvoMAS是一个执行时多智能体工作流构建框架，将工作流构建形式化为沿单一任务轨迹的元级序列决策问题。其核心创新包括：

### Planner-Evaluator-Updater管道

在每个阶段，EvoMAS通过三层管道构建显式任务状态：

- **Planner（规划器）**：分析当前任务状态并规划下一步行动
- **Evaluator（评估器）**：评估候选智能体的适用性和潜在贡献
- **Updater（更新器）**：根据执行反馈更新任务状态表示

### 学习式工作流适配器

框架使用学习得到的工作流适配器，从固定的候选智能体池中实例化阶段特定的分层工作流。这种动态适配机制使系统能够根据任务进展调整智能体组合和协调策略。

### 训练机制

适配器使用策略梯度进行训练，以稀疏但可验证的终端任务成功作为主要监督信号。此外，研究还分析了基于评估器的过程奖励在极稀疏奖励设置下的作用。

## 实验验证与结果

研究团队在GAIA、HLE和DeepResearcher等基准上进行了全面评估，结果显示：

- **性能优势**：EvoMAS优于单智能体基线和近期自动化多智能体工作流设计方法
- **互补效益**：显式任务状态构建与学习工作流适配提供互补优势
- **过程奖励价值**：在终端成功极稀疏的情况下，过程奖励最为有用

### 定性案例分析

案例研究展示了EvoMAS如何随着任务状态演变而调整智能体协调。系统能够：

- 识别任务阶段转换的关键节点
- 动态调整智能体角色分工
- 根据新获得的信息重新配置工作流

## 技术贡献与意义

EvoMAS代表了多智能体系统从静态设计向动态适应的重要转变。其核心贡献包括：

1. **执行时工作流构建**：突破了预定义工作流的限制
2. **显式状态建模**：通过结构化任务状态表示支持更智能的决策
3. **端到端学习**：从稀疏奖励中学习复杂的协调策略

## 应用前景

EvoMAS特别适用于以下场景：

- **开放域研究任务**：需要多轮信息收集和推理
- **复杂问题求解**：子目标随探索过程不断细化
- **动态环境交互**：外部条件变化需要策略调整

该框架为构建更灵活、更强大的多智能体系统提供了新范式，有望推动自主AI代理在实际应用中的部署。