章节 01
导读 / 主楼:Agent-Lab:复杂产品开发场景下的Codex Agent基准测试实验室
Agent-Lab是一个针对复杂产品开发任务的Codex Agent基准测试实验室,专注于验证不同agent、skill、模型和推理强度组合在跨文件功能实现、隐藏缺陷检测、多阶段开发工作流等复杂场景中的表现。
正文
Agent-Lab是一个针对复杂产品开发任务的Codex Agent基准测试实验室,专注于验证不同agent、skill、模型和推理强度组合在跨文件功能实现、隐藏缺陷检测、多阶段开发工作流等复杂场景中的表现。
章节 01
Agent-Lab是一个针对复杂产品开发任务的Codex Agent基准测试实验室,专注于验证不同agent、skill、模型和推理强度组合在跨文件功能实现、隐藏缺陷检测、多阶段开发工作流等复杂场景中的表现。
章节 02
\nTriage/Context → Execution → Deterministic Gates → Independent Review\n\n\n这种结构在复杂场景中表现出以下优势:\n\n1. 作用域控制更稳定:相比单次生成(single-pass),C2结构能更好地控制代码变更的作用范围\n2. 持续缺陷捕获:即使通过确定性门禁后,独立审查环节仍能发现隐藏缺陷\n3. 减少过度泛化:先固定brief和context pack,可以减少执行阶段的过度泛化问题\n\n## 配置建议\n\nAgent-Lab通过大量实验得出以下配置建议:\n\n### 最高质量默认配置\n- C2 + 所有角色使用gpt-5.4/high:在复杂场景下提供最稳定的质量\n\n### 成本效益优化方案\n- C2 + triage/context使用gpt-5.4-mini/medium + execution/review使用gpt-5.4:在保证质量的同时显著降低成本\n\n### 不推荐的做法\n- 在复杂场景运营中不推荐使用C0单次生成系列\n- 不建议将execution设置为xhigh作为默认值\n\n## 项目结构\n\nAgent-Lab的仓库结构清晰,便于理解和复现:\n\n- docs/:运营计划、角色卡片、实验日志、最终建议文档\n- skills/:待验证的Codex skill资源\n- agents/:候选agent提示词和评估器资源\n- evals/complex-case-golden-set/:复杂场景评估任务集\n- benchmark/:批处理执行配置\n- scripts/:基准测试执行和评分脚本\n- sandboxes/:可复现的测试用示例项目\n- artifacts/benchmark_runs/:代表性执行结果摘要\n\n## 关键文档\n\n项目提供了丰富的文档支持:\n\n- FINAL_SCORECARD.md:最终评分卡,汇总各配置的表现\n- RECOMMENDED_AGENT_SKILL_MODEL_CONFIGS.md:推荐的agent、skill、模型配置组合\n- BENCHMARK_BATCH_LOG.md:基准测试批处理日志\n- COMPLEX_CASE_AGENT_PROGRAM_PLAN.md:复杂场景agent程序计划\n- MODEL_EFFORT_BENCHMARK_PLAN.md:模型推理强度基准测试计划\n\n## 实验方法\n\nAgent-Lab采用两阶段实验方法:\n\n### 初始广泛扫描\nbash\npython3 scripts/run_codex_benchmark.py --config benchmark/initial_matrix.yaml\npython3 scripts/score_codex_benchmark.py --root artifacts/benchmark_runs/initial-complex-case-batch\n\n\n### 精炼确认批处理\nbash\npython3 scripts/run_codex_benchmark.py --config benchmark/refined_matrix.yaml\npython3 scripts/score_codex_benchmark.py --root artifacts/benchmark_runs/refined-skill-batch\n\n\n## 实际意义与启示\n\nAgent-Lab的研究对AI辅助开发领域具有重要意义:\n\n1. 工作流设计的重要性:相比单纯追求更强的模型,合理的工作流设计对复杂任务的质量提升更为关键\n2. 角色分工的价值:triage、execution、review等不同角色的分离,能够形成有效的质量防护网\n3. 成本与质量的平衡:通过智能的角色-模型分配,可以在保证质量的同时优化成本\n\n## 结语\n\nAgent-Lab为AI辅助复杂产品开发提供了一个科学、系统的评估框架。它不仅告诉我们"什么配置表现最好",更重要的是揭示了"为什么这种配置更好"。对于正在将AI代理引入复杂开发流程的团队来说,Agent-Lab的经验和结论具有很高的参考价值。章节 03
Agent-Lab:复杂产品开发场景下的Codex Agent基准测试实验室\n\n背景与动机\n\n随着AI编程助手能力的不断提升,开发者们越来越依赖Codex等智能代理来完成代码编写任务。然而,大多数基准测试集中在简单的问答或单文件修改上,难以反映真实产品开发中的复杂场景。Agent-Lab项目正是为了填补这一空白而诞生的——它专注于评估AI代理在复杂产品开发任务中的实际表现。\n\n什么是Agent-Lab\n\nAgent-Lab是一个专门设计的基准测试实验室,用于在复杂产品开发场景中实验不同的agent、skill、模型和推理强度(reasoning-effort)组合。其核心目标不是简单地找出"哪个模型最强",而是验证"哪种工作流和角色分工能在复杂场景中真正提升质量"。\n\n复杂场景的定义\n\nAgent-Lab关注的复杂场景包括:\n\n- 跨文件功能实现与回归防护:需要同时修改多个文件并确保不引入回归问题\n- 隐藏缺陷检测:如竞态条件、缓存作用域、回滚降级、租户隔离等深层次问题\n- 多环节同步:代码变更与测试、文档、运维防护的同步更新\n- 多阶段开发工作流:比单次生成更安全的分阶段开发流程验证\n\n推荐的拓扑结构:C2\n\n经过大量实验,Agent-Lab推荐采用C2拓扑结构:\n\n\nTriage/Context → Execution → Deterministic Gates → Independent Review\n\n\n这种结构在复杂场景中表现出以下优势:\n\n1. 作用域控制更稳定:相比单次生成(single-pass),C2结构能更好地控制代码变更的作用范围\n2. 持续缺陷捕获:即使通过确定性门禁后,独立审查环节仍能发现隐藏缺陷\n3. 减少过度泛化:先固定brief和context pack,可以减少执行阶段的过度泛化问题\n\n配置建议\n\nAgent-Lab通过大量实验得出以下配置建议:\n\n最高质量默认配置\n- C2 + 所有角色使用gpt-5.4/high:在复杂场景下提供最稳定的质量\n\n成本效益优化方案\n- C2 + triage/context使用gpt-5.4-mini/medium + execution/review使用gpt-5.4:在保证质量的同时显著降低成本\n\n不推荐的做法\n- 在复杂场景运营中不推荐使用C0单次生成系列\n- 不建议将execution设置为xhigh作为默认值\n\n项目结构\n\nAgent-Lab的仓库结构清晰,便于理解和复现:\n\n- docs/:运营计划、角色卡片、实验日志、最终建议文档\n- skills/:待验证的Codex skill资源\n- agents/:候选agent提示词和评估器资源\n- evals/complex-case-golden-set/:复杂场景评估任务集\n- benchmark/:批处理执行配置\n- scripts/:基准测试执行和评分脚本\n- sandboxes/:可复现的测试用示例项目\n- artifacts/benchmark_runs/:代表性执行结果摘要\n\n关键文档\n\n项目提供了丰富的文档支持:\n\n- FINAL_SCORECARD.md:最终评分卡,汇总各配置的表现\n- RECOMMENDED_AGENT_SKILL_MODEL_CONFIGS.md:推荐的agent、skill、模型配置组合\n- BENCHMARK_BATCH_LOG.md:基准测试批处理日志\n- COMPLEX_CASE_AGENT_PROGRAM_PLAN.md:复杂场景agent程序计划\n- MODEL_EFFORT_BENCHMARK_PLAN.md:模型推理强度基准测试计划\n\n实验方法\n\nAgent-Lab采用两阶段实验方法:\n\n初始广泛扫描\nbash\npython3 scripts/run_codex_benchmark.py --config benchmark/initial_matrix.yaml\npython3 scripts/score_codex_benchmark.py --root artifacts/benchmark_runs/initial-complex-case-batch\n\n\n精炼确认批处理\nbash\npython3 scripts/run_codex_benchmark.py --config benchmark/refined_matrix.yaml\npython3 scripts/score_codex_benchmark.py --root artifacts/benchmark_runs/refined-skill-batch\n\n\n实际意义与启示\n\nAgent-Lab的研究对AI辅助开发领域具有重要意义:\n\n1. 工作流设计的重要性:相比单纯追求更强的模型,合理的工作流设计对复杂任务的质量提升更为关键\n2. 角色分工的价值:triage、execution、review等不同角色的分离,能够形成有效的质量防护网\n3. 成本与质量的平衡:通过智能的角色-模型分配,可以在保证质量的同时优化成本\n\n结语\n\nAgent-Lab为AI辅助复杂产品开发提供了一个科学、系统的评估框架。它不仅告诉我们"什么配置表现最好",更重要的是揭示了"为什么这种配置更好"。对于正在将AI代理引入复杂开发流程的团队来说,Agent-Lab的经验和结论具有很高的参考价值。