章节 01
导读 / 主楼:Terminal-Bench-Science:评估AI智能体在真实科学计算工作流中的终端基准测试
斯坦福Harbor框架团队推出的科学领域AI基准测试,专注于评估AI智能体在终端环境中执行复杂真实科学研究工作流的能力,涵盖物理、生命、地球和数学科学。
正文
斯坦福Harbor框架团队推出的科学领域AI基准测试,专注于评估AI智能体在终端环境中执行复杂真实科学研究工作流的能力,涵盖物理、生命、地球和数学科学。
章节 01
斯坦福Harbor框架团队推出的科学领域AI基准测试,专注于评估AI智能体在终端环境中执行复杂真实科学研究工作流的能力,涵盖物理、生命、地球和数学科学。
章节 02
bash\n# 安装Harbor\nuv tool install harbor\n\n# 运行Oracle参考实现\nharbor run -p tasks/<domain>/<field>/<task> -a oracle\n\n# 运行AI智能体评估\nharbor run -p tasks/<domain>/<field>/<task> -a <agent> -m <provider/model>\n\n\nHarbor框架提供:\n\n- 隔离执行环境:每个任务在独立的容器中运行,确保可重复性和安全性\n- 资源监控:跟踪CPU、内存、磁盘和网络使用情况\n- 超时控制:防止智能体陷入无限循环或过度消耗资源\n- 日志记录:详细记录执行过程,支持事后分析和调试\n\n## 当前进展与社区参与\n\nTB-Science采用开源协作模式,欢迎科学界和AI研究社区的贡献。项目当前处于早期阶段,各领域任务数量正在逐步增长。\n\n贡献者可以通过以下方式参与:\n\n提交新任务:基于自己的研究经验,设计反映真实工作流的测试任务\n完善评估:改进现有任务的评估标准和验证脚本\n领域审核:作为领域专家审核任务设计的科学合理性\n工具集成:添加对新的科学计算工具和库的支持\n\n项目维护团队提供详细的贡献指南(CONTRIBUTING.md),包括任务设计规范、代码风格要求和提交流程。\n\n## 对AI for Science的意义\n\nTB-Science的推出标志着AI辅助科学研究进入了一个新的发展阶段:\n\n从玩具问题到真实挑战:现有的科学AI基准往往过于简化,TB-Science聚焦于真实世界的复杂性,推动模型能力的实质性提升。\n\n标准化评估:为科学AI领域提供了统一的评估语言,使不同模型、不同方法的结果具有可比性。\n\n跨学科整合:促进AI技术与各自然科学领域的深度融合,推动跨学科创新。\n\n加速科学发现:通过识别当前AI能力的短板,指引未来研究方向,最终目标是让AI成为科学家的真正助手,而非仅仅是工具。\n\n## 技术架构与实现细节\n\nTB-Science的技术栈包括:\n\n- 容器化执行:使用Docker确保环境一致性和可移植性\n- 版本控制:所有任务和评估脚本托管在GitHub,支持版本追踪和协作开发\n- CI/CD集成:自动化测试确保任务质量和框架稳定性\n- 多模型支持:兼容Anthropic Claude、OpenAI GPT、Google Gemini等主流模型\n\n项目采用Apache 2.0许可证开源,由斯坦福大学和Laude Institute托管,2077AI提供API计算资源支持。\n\n## 未来展望\n\nTB-Science的愿景是成为科学AI领域的ImageNet——一个推动技术进步的标志性基准。随着任务库的不断扩充和评估方法的持续完善,它将为AI for Science的发展提供重要的指引。\n\n短期内,项目计划:\n- 完成各领域首批核心任务的开发和验证\n- 建立领域专家审核机制,确保任务的科学严谨性\n- 举办社区竞赛,激发创新解决方案\n\n长期来看,TB-Science有望成为评估AI系统是否具备"研究助理"能力的事实标准,推动AI从辅助编程向辅助科学发现的跃迁。章节 03
Terminal-Bench-Science:评估AI智能体在真实科学计算工作流中的终端基准测试\n\n随着Claude Code、OpenAI Codex等AI编程助手的快速发展,AI辅助科学研究正成为新的技术前沿。然而,如何客观评估AI智能体在真实科学工作流中的表现,一直是该领域的关键挑战。Terminal-Bench-Science项目由斯坦福大学Harbor框架团队推出,旨在建立一个专门针对自然科学计算工作流的综合性基准测试平台,推动"科学领域的Claude Code时刻"的到来。\n\n基准测试的背景与动机\n\n现有的AI代码生成基准测试(如HumanEval、MBPP)主要关注算法实现和编程能力,而科学研究工作流涉及更复杂的端到端任务:数据获取与清洗、实验设计、统计分析、可视化、结果解释等。这些任务往往需要跨多个学科知识、使用专业工具链、处理真实世界的复杂数据。\n\nTerminal-Bench-Science的前身Terminal-Bench已经在代码生成领域获得广泛认可,出现在Claude Opus 4.6、GPT-5.3-Codex、Gemini 3.1 Pro等顶级模型的模型卡中。TB-Science在此基础上进一步扩展,专注于自然科学领域的计算研究工作流,填补了该领域标准化评估的空白。\n\n基准测试的设计理念\n\nTB-Science的设计遵循几个核心原则:\n\n真实工作流:测试任务不是抽象的编程题,而是反映真实科学家日常工作的端到端流程。例如,蛋白质结构预测、系外行星探测、气候数据分析等。\n\n终端环境:所有任务在真实的终端环境中执行,AI智能体需要像人类科学家一样使用命令行工具、编写脚本、安装依赖、调试错误。\n\n可验证输出:每个任务都有明确的评估标准和预期输出,支持自动化的正确性验证。\n\n跨学科覆盖:涵盖物理科学、生命科学、地球科学和数学科学四大领域,确保评估的全面性。\n\n科学领域覆盖范围\n\nTB-Science计划构建100+个测试任务,覆盖自然科学的主要分支:\n\n生命科学(Life Sciences)\n\n- 生物学:基因组分析、蛋白质结构预测、进化树构建、代谢通路分析\n- 神经科学:脑成像数据分析、神经元建模、认知实验数据处理\n- 医学:临床试验数据分析、医学影像处理、药物相互作用预测\n\n物理科学(Physical Sciences)\n\n- 物理学:粒子物理数据分析、量子系统模拟、天体物理计算\n- 化学与材料:分子动力学模拟、材料性质计算、化学反应路径优化\n- 天文学:系外行星探测、星系分类、宇宙学参数估计\n\n地球科学(Earth Sciences)\n\n- 大气科学:气象数据分析、气候模型运行、空气质量预测\n- 地球科学:地震数据处理、地质建模、矿产资源评估\n- 海洋科学:海洋环流模拟、海洋生物数据分析、海平面变化研究\n\n数学科学(Mathematical Sciences)\n\n- 应用数学:数值分析、优化问题求解、微分方程模拟\n- 科学计算:高性能计算工作流、并行算法实现、计算网格生成\n- 数据科学与统计:统计推断、机器学习建模、大数据处理管道\n\n任务结构与评估机制\n\n每个TB-Science任务包含以下组件:\n\n任务描述:清晰的问题陈述,包括科学背景、输入数据、预期输出和评估标准。\n\n初始环境:预配置的终端环境,可能包含部分数据、代码模板或需要智能体自行获取资源。\n\n评估脚本:自动化的评分系统,检查输出正确性、代码质量、执行效率等维度。\n\n参考实现:由领域专家编写的Oracle解决方案,用于验证任务可行性和评估标准合理性。\n\n评估采用多维度指标:\n\n- 正确性:输出结果是否符合科学标准\n- 完整性:是否完成了任务的所有要求\n- 效率:解决方案的计算资源使用是否合理\n- 代码质量:代码的可读性、模块化程度和文档完整性\n\nHarbor框架与执行环境\n\nTB-Science基于Harbor框架构建,这是一个专门为AI智能体评估设计的开源工具链:\n\nbash\n安装Harbor\nuv tool install harbor\n\n运行Oracle参考实现\nharbor run -p tasks/<domain>/<field>/<task> -a oracle\n\n运行AI智能体评估\nharbor run -p tasks/<domain>/<field>/<task> -a <agent> -m <provider/model>\n\n\nHarbor框架提供:\n\n- 隔离执行环境:每个任务在独立的容器中运行,确保可重复性和安全性\n- 资源监控:跟踪CPU、内存、磁盘和网络使用情况\n- 超时控制:防止智能体陷入无限循环或过度消耗资源\n- 日志记录:详细记录执行过程,支持事后分析和调试\n\n当前进展与社区参与\n\nTB-Science采用开源协作模式,欢迎科学界和AI研究社区的贡献。项目当前处于早期阶段,各领域任务数量正在逐步增长。\n\n贡献者可以通过以下方式参与:\n\n提交新任务:基于自己的研究经验,设计反映真实工作流的测试任务\n完善评估:改进现有任务的评估标准和验证脚本\n领域审核:作为领域专家审核任务设计的科学合理性\n工具集成:添加对新的科学计算工具和库的支持\n\n项目维护团队提供详细的贡献指南(CONTRIBUTING.md),包括任务设计规范、代码风格要求和提交流程。\n\n对AI for Science的意义\n\nTB-Science的推出标志着AI辅助科学研究进入了一个新的发展阶段:\n\n从玩具问题到真实挑战:现有的科学AI基准往往过于简化,TB-Science聚焦于真实世界的复杂性,推动模型能力的实质性提升。\n\n标准化评估:为科学AI领域提供了统一的评估语言,使不同模型、不同方法的结果具有可比性。\n\n跨学科整合:促进AI技术与各自然科学领域的深度融合,推动跨学科创新。\n\n加速科学发现:通过识别当前AI能力的短板,指引未来研究方向,最终目标是让AI成为科学家的真正助手,而非仅仅是工具。\n\n技术架构与实现细节\n\nTB-Science的技术栈包括:\n\n- 容器化执行:使用Docker确保环境一致性和可移植性\n- 版本控制:所有任务和评估脚本托管在GitHub,支持版本追踪和协作开发\n- CI/CD集成:自动化测试确保任务质量和框架稳定性\n- 多模型支持:兼容Anthropic Claude、OpenAI GPT、Google Gemini等主流模型\n\n项目采用Apache 2.0许可证开源,由斯坦福大学和Laude Institute托管,2077AI提供API计算资源支持。\n\n未来展望\n\nTB-Science的愿景是成为科学AI领域的ImageNet——一个推动技术进步的标志性基准。随着任务库的不断扩充和评估方法的持续完善,它将为AI for Science的发展提供重要的指引。\n\n短期内,项目计划:\n- 完成各领域首批核心任务的开发和验证\n- 建立领域专家审核机制,确保任务的科学严谨性\n- 举办社区竞赛,激发创新解决方案\n\n长期来看,TB-Science有望成为评估AI系统是否具备"研究助理"能力的事实标准,推动AI从辅助编程向辅助科学发现的跃迁。