# windmill-bench：面向AI智能体的工作流生成执行级基准测试

> 首个针对AI智能体生成Windmill工作流的公开基准测试，通过在实际工作流引擎中执行生成结果并进行输出比对，实现执行级评分。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-08T19:14:56.000Z
- 最近活动: 2026-05-08T19:18:06.998Z
- 热度: 148.9
- 关键词: AI智能体, 基准测试, 工作流生成, Windmill, 代码生成, 执行级评分, AgentClash
- 页面链接: https://www.zingnex.cn/forum/thread/windmill-bench-ai
- Canonical: https://www.zingnex.cn/forum/thread/windmill-bench-ai
- Markdown 来源: ingested_event

---

## 背景：代码生成评估的困境\n\n随着大语言模型在代码生成任务上展现出惊人能力，如何准确评估这些能力成为关键问题。现有的基准测试大多存在明显局限：HumanEval、BigCodeBench等专注于单函数生成；AppWorld、τ-bench测试的是API/UI环境中的任务完成能力；而WorFBench、AFLOW等工作流基准则侧重于算子图的下游任务表现，而非工作流引擎的实际执行。\n\n更关键的是，这些基准很少在真实的工作流运行时环境中执行生成的代码。它们依赖静态分析或LLM-as-Judge的评分方式，无法捕捉工作流在实际运行时的行为特征。\n\n## windmill-bench的核心理念\n\nwindmill-bench项目提出了一个简单但有力的解决方案：在真实的工作流引擎中执行AI生成的代码，并将运行输出与参考结果进行比对。这种"执行级评分"（execution-graded）的方法，能够更准确地反映智能体在实际生产环境中的表现。\n\n项目选择Windmill作为目标引擎并非偶然。Windmill是一个开源的生产级工作流平台，具备完整的功能特性：工作空间状态管理、类型化资源、密钥管理、第三方模块Hub、多语言脚本执行。这些特性使其成为评估AI工作流生成能力的理想载体。\n\n## 基准设计：从简单到复杂的三级难度\n\nwindmill-bench将测试任务分为三个难度等级，逐步增加复杂度：\n\n**简单级**：2步线性流程，主要测试基本的流程生成能力和语法正确性。\n\n**中等级**：3步流程，引入分支逻辑和Hub脚本查找。这要求智能体不仅要生成代码，还要理解Windmill的生态系统，知道如何复用现有的Hub脚本。\n\n**困难级**：4步流程，包含并行或循环结构，以及类型化资源输入。这一级别考验智能体处理复杂控制流和数据类型的能力。\n\n## 评分维度：超越语法正确性\n\n项目设计了多维度的评分体系，确保评估的全面性：\n\n**解析有效性**：生成的代码必须能够被Windmill正确解析，这是最基本的门槛。\n\n**无幻觉 grounding**：智能体不能虚构不存在的资源或脚本，必须基于实际可用的组件生成工作流。\n\n**执行成功率**：工作流在Windmill运行时中能够无错误执行。这比单纯的语法正确性要求更高，因为运行时错误可能由资源缺失、类型不匹配等原因引起。\n\n**输出匹配度**：执行结果与预设的参考输出进行比对。这是最严格的评估标准，要求生成的代码不仅在功能上等价，在输出格式和数值上也要一致。\n\n## 技术实现：与AgentClash的深度集成\n\nwindmill-bench并非独立运行的测试框架，而是作为挑战包（challenge pack）与AgentClash平台集成。AgentClash提供了一个标准化的模型适配层和沙箱执行环境。\n\n项目的核心技术组件包括：\n\n**E2B沙箱模板**：一个预配置的Docker镜像，包含Windmill服务器、Postgres数据库、冻结的Hub快照和种子工作空间数据。这确保了测试环境的可重复性和隔离性。\n\n**任务定义**：每个测试任务包含自然语言描述、参考工作流定义和验证用的oracle数据。\n\n**评分器实现**：针对四个评分维度分别实现的评分逻辑，从简单的语法检查到复杂的输出比对。\n\n**运行器**：驱动模型完成单个任务的胶水代码，处理模型调用、结果解析和评分触发。\n\n## 与Windmill官方测试的区别\n\nWindmill官方仓库中包含一个内部的`ai_evals`测试套件，使用LLM作为评判者，覆盖脚本、工作流、应用和CLI生成。但那个套件主要用于开发阶段的质量检查，测试用例故意设计得简单（如"求两个数的和"、"复用现有脚本"）。\n\n相比之下，windmill-bench面向公众开放，测试难度更高，采用执行级评分而非LLM评判，目标是成为一个公开的测量基准和排行榜，而非CI门禁。\n\n## 项目现状与路线图\n\n目前项目处于pre-v0阶段，主要完成架构设计和脚手架搭建，尚未达到可运行状态。项目规划明确区分了v1和v2的范围：v1专注于单次生成的流程生成，不涉及多轮调试；v2可能加入基于错误反馈的多轮优化能力。\n\n这种渐进式的开发策略体现了开源项目的务实精神：先建立核心能力，再逐步扩展边界。对于关注AI代码生成评估的研究者和开发者来说，windmill-bench提供了一个值得关注的新方向。