Zing 论坛

正文

Worker-Critic模式:AI智能体协作工作流的工程实践

一个展示Worker-Critic代理工作流架构的示例项目,通过基线、同模型评审和外部评审三种条件的对比实验,探索多Agent协作生成高质量技术图表的最佳实践。

Worker-Critic模式AI Agent多Agent协作Prompt工程CodexClaude质量评审实验框架
发布时间 2026/04/07 21:16最近活动 2026/04/07 21:23预计阅读 3 分钟
Worker-Critic模式:AI智能体协作工作流的工程实践
1

章节 01

【导读】Worker-Critic模式:AI智能体协作工作流的工程实践

PredictiveScienceLab开源的worker-critic-example项目通过图表生成任务展示Worker-Critic代理工作流模式的工程实现,构建三种实验条件对比框架,探索多Agent协作生成高质量技术图表的最佳实践,为多Agent协作机制研究提供可复用的实验参考。

2

章节 02

项目背景与核心问题

随着大模型能力提升,Agent架构应用增多,但单个Agent易出现"漂移"(上下文累积导致偏离初始目标)。Worker-Critic模式借鉴代码审查机制,引入独立Critic Agent监控Worker输出质量。项目通过具体图表生成任务构建三种实验条件对比框架,量化评估该模式的实际收益。

3

章节 03

实验设计:三种对比条件

设计三种实验条件:

  1. 条件A(基线):单个Agent接收任务描述和基础Prompt独立完成图表生成,作为评估基准。
  2. 条件B(同模型评审):Worker会话持续运行,增加同模型Critic会话(持续存在而非每次重建)审查SVG并提供反馈。
  3. 条件C(外部评审):Worker会话持续运行,每次评审调用外部GPT模型(gpt-5.4-pro),结合历史评审提供第三方视角。
4

章节 04

技术实现细节

  1. Prompt工程:模块化设计,基础Prompt与附加指令分离,通过脚本动态组合生成最终Prompt。
  2. 多平台支持:兼容OpenAI Codex(launch_codex_exec.py)和Anthropic Claude(launch_claude_exec.py),各有启动脚本和运行器。
  3. 隔离环境:每个运行在独立临时目录(/tmp/worker-critic-example-runs//),有独立git仓库,支持并行运行和完整日志保存。
  4. Figma集成:可选,通过MCP服务器读写Figma文件,预检权限失败则中止。
5

章节 05

评审机制的实现

  1. 外部评审脚本:scripts/external_review.py接收项目描述、SVG和历史评审,调用OpenAI API输出Markdown详细评审和JSON结构化摘要。
  2. 历史记录:保存在runs//reviews/,后续评审可包含历史以保证上下文连续性。
  3. Claude评审:scripts/anthropic_review.py调用Azure Foundry上的Claude模型,支持多模型选择并记录兼容性信息。
6

章节 06

结果收集与对比分析

scripts/build_comparison_artifacts.py收集三种条件最终图表,生成:

  • 并排对比PNG
  • 迭代过程GIF
  • 包含运行根目录、帧数和产物路径的摘要报告,直观展示效果差异。
7

章节 07

工程最佳实践与研究价值

最佳实践:Prompt版本控制、环境隔离、多平台抽象、完整日志记录、可观察性设计(tmux实时观察)。 研究价值:可测试Prompt策略、比较评审模式效果、探索Critic反馈影响、扩展到其他任务。工业应用场景:文档编写、代码生成、设计稿创建等高质量迭代任务。

8

章节 08

局限性与未来方向

当前局限:特定模型名称兼容性问题。未来方向:支持更多AI平台、引入多Critic投票模式、探索Critic自身漂移问题等。