# MAW：面向Codex原生环境的多智能体工作流框架

> 一款专为Codex设计的多智能体协作框架，通过角色分工、确定性验证门控和可审计的运行记录，实现从任务规划到验收交付的全流程自动化。支持ML工作流、前端任务和通用软件开发场景。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-03T03:44:20.000Z
- 最近活动: 2026-06-03T03:51:57.967Z
- 热度: 163.9
- 关键词: 多智能体, 工作流框架, Codex, AI编程, 自动化, ML工程, 代码审查, 确定性检查, 任务编排, 智能体协作
- 页面链接: https://www.zingnex.cn/forum/thread/maw-codex
- Canonical: https://www.zingnex.cn/forum/thread/maw-codex
- Markdown 来源: ingested_event

---

# MAW：面向Codex原生环境的多智能体工作流框架

随着AI编程助手（如Codex）能力的不断增强，如何有效组织和协调多个AI智能体完成复杂任务成为一个重要课题。**MAW（Multi-Agent Workflow）** 是一个专为Codex原生环境设计的多智能体工作流框架，它通过明确的角色分工、Markdown格式的交接文档和确定性的验证门控，实现了从任务规划到验收交付的全流程自动化。

## 原作者与来源

- **原作者/维护者**：redstonejh
- **来源平台**：GitHub
- **原始标题**：multi-agent-workflow-codex
- **原始链接**：https://github.com/redstonejh/multi-agent-workflow-codex
- **发布时间**：2026年6月3日

## 核心设计理念

MAW的设计哲学非常清晰：**让模型负责规划和批判，让确定性检查负责决策**。具体来说：

- **模型判断用于规划**：智能体可以基于模型能力进行任务分解、方案设计和代码生成
- **记录证据用于决策**：关键的通过/不通过决策必须依赖已记录的证据和标准库检查，而非模型的主观判断
- **可审计的运行记录**：每个运行都有完整的`runs/`文件夹，包含所有交接文档、决策依据和最终产物

这种设计平衡了AI的创造性和工程的可控性，既发挥了多智能体协作的优势，又确保了交付质量的可靠性。

## 快速上手

### 从Codex使用

最简单的启动方式是直接在Codex中调用：

```
Use $maw to fix the failing test in this repo.
```

### 本地CLI使用

```bash
# 安装
python -m pip install -e .

# 启动标准软件任务
maw start standard-software-task "add a --verbose flag to the CLI"

# 验证交接文档
maw validate-handoffs runs/<run_id>

# 运行验收检查
maw acceptance runs/<run_id> --test-cmd "python -m unittest discover -s tests"
```

Windows用户可以使用`py`或`uv run python`替代`python`命令。

### 机器学习任务一键启动

```bash
maw ml-auto data.csv --goal "predict churn"
```

这条命令会自动完成数据画像、目标推断、模型训练、验证配置生成、验收检查等全流程。如果目标或问题类型不明确，会记录`NEEDS-HUMAN`并给出针对性问题，而非盲目猜测。

## 运行循环与角色体系

MAW的执行核心由五个角色组成：

```
conductor -> planner -> worker -> critic -> acceptance_gate
```

### Conductor（指挥者）

负责任务分类、角色选择、能力边界记录和结构化计划编写。Conductor生成的计划需要通过`plan_check.py`的确定性验证才能进入执行阶段。

### Planner（规划者）

将验收通过的计划转化为具体步骤和验收标准，为Worker提供清晰的执行指引。

### Worker（执行者）

负责实际实现或草拟工作产物，是任务的主要执行角色。

### Critic（审查者）

审查Worker的输出，可以要求修订。Critic的判断是建议性的，最终是否接受修订仍由后续流程决定。

### Acceptance Gate（验收门）

独立检查交接文档、必需证据、可选测试命令输出和最终裁决一致性。这是最后的质量关卡。

## 确定性硬门控

MAW的核心安全保障是三个确定性检查工具：

| 工具 | 职责 | 检查内容 |
|------|------|----------|
| `plan_check.py` | 计划验证 | 验证Conductor计划是否包含所有核心角色，可选专家是否有充分理由 |
| `acceptance_check.py` | 验收检查 | 验证最终交接文档、配置测试、必需任务证据，输出`acceptance-result.json` |
| `verdict_check.py` | 裁决验证 | 验证`run.md`中声明的裁决与`acceptance-result.json`是否一致 |

这些工具完全基于标准库实现，不依赖任何模型判断，确保了决策的客观性和可重复性。

## 任务类型与能力配置

MAW支持多种任务类型，每种类型有预设的角色配置和能力边界：

| 任务类型 | 别名 | 必需角色 | 默认max_agents |
|----------|------|----------|----------------|
| generic | standard-software-task | 核心角色 | 5 |
| refactor | refactor-task | 核心角色 | 5 |
| code | - | critic, dependency_mapper | 5 |
| ml | ml-training-task, ml-validation-task | leakage_auditor, baseline_enforcer | 10 |
| frontend | frontend-ui-task | a11y_auditor, change_verifier | 13 |
| debugging | bug-investigation | debugger, bug_hunter, dependency_mapper | 8 |

能力边界包括`max_agents`（最大智能体数）和`max_parallel`（最大并行数），防止资源过度消耗。

## 运行目录结构

每个MAW运行都有标准化的目录结构：

```
runs/<date>_<slug>_<id>/
  run.md           # 运行主文档，记录任务描述和最终裁决
  memory.md        # 运行记忆，累积上下文信息
  agents/          # 各角色提示词和状态
    <role>.md
  handoffs/        # 交接文档
    NN_<from>__to__<to>.md
  artifacts/       # 产物和检查结果
    acceptance-result.json
    conductor-plan.json
    ...
```

这种结构确保了运行的可审计性，任何时候都可以回溯完整的执行过程。

## 丰富的角色生态

除了核心执行角色，MAW还提供了大量专业审查角色：

- **可访问性**：`a11y_auditor`
- **聚合分析**：`aggregator`
- **基线执行**：`baseline_enforcer`
- **漏洞挖掘**：`bug_hunter`
- **校准检查**：`calibration_checker`
- **变更验证**：`change_verifier`
- **数据质量**：`data_quality_auditor`
- **调试专家**：`debugger`
- **依赖映射**：`dependency_mapper`
- **数据泄露审查**：`leakage_auditor`
- **标记验证**：`markup_validator`
- **过拟合检查**：`overfitting_checker`
- **性能预算**：`perf_budgeter`
- **可复现性检查**：`reproducibility_checker`
- **响应式检查**：`responsive_checker`
- **风格漂移审查**：`style_drift_auditor`
- **UI构建**：`ui_builder`
- **视觉验证**：`visual_verifier`

这些角色由Conductor根据任务类型和复杂度动态选择，确保每个任务都有合适的专家参与。

## ML专项支持

MAW对机器学习任务有特别深入的支持：

### 数据泄露和分割检查
- 随机种子一致性
- 训练/测试集重叠检测
- 分割比例验证
- 目标特征直接泄露
- 标签打乱标记
- 预处理拟合范围
- 内容重复泄露
- 分组/实体泄露
- 时间泄露
- 高特征-目标相关性

### 分布漂移检测
- PSI（群体稳定性指数）
- Kolmogorov-Smirnov统计量

### 数据质量检查
- 缺失值率阈值
- 重复行率阈值

### 分类指标
- 混淆矩阵
- 每类精确率/召回率/F1
- 准确率、宏平均精确率/召回率/F1
- 多数类比率
- ROC AUC和PR AUC（二分类）
- 子群组切片门控

### 基线对比
- 模型vs基线改进度
- 配对Bootstrap置信区间

## 工作流模板系统

MAW提供了丰富的预定义模板：

- **standard-software-task**：标准软件任务，包含测试结果、Worker输出、Critic审查和验收结果
- **refactor-task**：重构任务，包含行为基线/差异、覆盖率、API表面、结构复杂度、性能预算、阻力分析和基线测试
- **bug-investigation**：Bug调查，包含依赖图/风险审计、复现记录、回归测试、根因分析和修复验证
- **frontend-ui-task**：前端UI任务，包含对比度、可访问性、预算、链接、标记、样式提取、变更验证、Token、视觉验证和UX/Critic产物
- **ml-training-task**：ML训练，包含训练/评估命令、ML验证器产物、分割/配置/日志/报告产物和验收
- **ml-validation-task**：ML验证，ML训练任务的轻量版，不含训练命令
- **multi-agent-research-task**：多智能体研究，包含研究计划、来源记录、聚合分析、依赖风险审计、最终报告和验收产物

使用`maw list-templates`查看所有模板，`maw validate-template [<template>]`验证模板配置。

## CLI命令速查

```bash
# 列出模板
maw list-templates

# 启动任务
maw start <template> "<task>" [--run-root runs] [--slug <slug>]

# 验证模板
maw validate-template [<template>]

# 验证交接文档
maw validate-handoffs runs/<run_id>

# 运行验收
maw acceptance runs/<run_id> [--test-cmd "<cmd>"] [--test-cwd <path>]

# 裁决检查
maw verdict-check runs/<run_id>

# 计划检查
maw plan-check runs/<run_id>/artifacts/conductor-plan.json

# 任务图可视化
maw plan-graph artifacts/task-graph.json

# 依赖审计
maw dependency-audit <path> [--annotate] [--dry-run] [--fail-on low|medium|high]

# ML自动任务
maw ml-auto <csv-or-parquet> --goal "<goal>"
```

## 技术实现亮点

### 标准库优先

核心确定性工具（`maw-tools/`目录下的所有检查脚本）完全基于Python标准库实现，不依赖外部包，确保了可移植性和稳定性。

### 清晰的依赖边界

- `maw_cli/ml_autopilot.py`（自动驾驶适配器）可以使用pandas/scikit-learn进行数据加载和训练
- `maw-tools/`和`examples/ml_problems/ml_checks.py`保持标准库纯净

### 可扩展的架构

- 新的任务类型可以通过`packs/core/manifest.json`注册
- 新的角色可以通过`.codex/agents/`添加
- 新的模板可以通过`templates/workflows/`定义

## 适用场景

MAW特别适合以下场景：

**复杂软件开发**：需要多轮规划、实现、审查和验收的软件开发任务

**机器学习工程**：从数据探索到模型训练、验证、部署的全流程自动化

**代码重构**：需要保持行为一致性、验证性能不降级的大规模重构

**Bug调查**：需要系统性地追踪依赖、复现问题、验证修复的复杂Bug

**前端开发**：需要检查可访问性、响应式、视觉一致性的UI开发

**多智能体研究**：需要聚合多个来源、生成综合报告的调研任务

## 总结

MAW代表了一种务实的多智能体协作范式：充分发挥AI的规划、实现和审查能力，同时用确定性检查守住质量底线。它的标准化运行结构、丰富的角色生态和深入的场景支持，使其成为Codex用户的强大工具。

对于需要可靠交付的AI辅助开发场景，MAW提供了一个值得参考的架构模式：不是完全依赖AI的自主决策，而是建立人机协作的清晰边界——AI负责创造，确定性检查负责验证。