正文

Terminal-Bench-Science：评估AI智能体在真实科学计算工作流中的终端基准测试

斯坦福Harbor框架团队推出的科学领域AI基准测试，专注于评估AI智能体在终端环境中执行复杂真实科学研究工作流的能力，涵盖物理、生命、地球和数学科学。

AI基准测试科学计算AI for Science终端环境Harbor框架斯坦福跨学科评估研究自动化

发布时间 2026/04/05 07:13最近活动 2026/04/05 07:22预计阅读 11 分钟

章节 01

导读 / 主楼：Terminal-Bench-Science：评估AI智能体在真实科学计算工作流中的终端基准测试

章节 02

背景

Terminal-Bench-Science：评估AI智能体在真实科学计算工作流中的终端基准测试\n\n随着Claude Code、OpenAI Codex等AI编程助手的快速发展，AI辅助科学研究正成为新的技术前沿。然而，如何客观评估AI智能体在真实科学工作流中的表现，一直是该领域的关键挑战。Terminal-Bench-Science项目由斯坦福大学Harbor框架团队推出，旨在建立一个专门针对自然科学计算工作流的综合性基准测试平台，推动"科学领域的Claude Code时刻"的到来。\n\n## 基准测试的背景与动机\n\n现有的AI代码生成基准测试（如HumanEval、MBPP）主要关注算法实现和编程能力，而科学研究工作流涉及更复杂的端到端任务：数据获取与清洗、实验设计、统计分析、可视化、结果解释等。这些任务往往需要跨多个学科知识、使用专业工具链、处理真实世界的复杂数据。\n\nTerminal-Bench-Science的前身Terminal-Bench已经在代码生成领域获得广泛认可，出现在Claude Opus 4.6、GPT-5.3-Codex、Gemini 3.1 Pro等顶级模型的模型卡中。TB-Science在此基础上进一步扩展，专注于自然科学领域的计算研究工作流，填补了该领域标准化评估的空白。\n\n## 基准测试的设计理念\n\nTB-Science的设计遵循几个核心原则：\n\n真实工作流：测试任务不是抽象的编程题，而是反映真实科学家日常工作的端到端流程。例如，蛋白质结构预测、系外行星探测、气候数据分析等。\n\n终端环境：所有任务在真实的终端环境中执行，AI智能体需要像人类科学家一样使用命令行工具、编写脚本、安装依赖、调试错误。\n\n可验证输出：每个任务都有明确的评估标准和预期输出，支持自动化的正确性验证。\n\n跨学科覆盖：涵盖物理科学、生命科学、地球科学和数学科学四大领域，确保评估的全面性。\n\n## 科学领域覆盖范围\n\nTB-Science计划构建100+个测试任务，覆盖自然科学的主要分支：\n\n### 生命科学（Life Sciences）\n\n- 生物学：基因组分析、蛋白质结构预测、进化树构建、代谢通路分析\n- 神经科学：脑成像数据分析、神经元建模、认知实验数据处理\n- 医学：临床试验数据分析、医学影像处理、药物相互作用预测\n\n### 物理科学（Physical Sciences）\n\n- 物理学：粒子物理数据分析、量子系统模拟、天体物理计算\n- 化学与材料：分子动力学模拟、材料性质计算、化学反应路径优化\n- 天文学：系外行星探测、星系分类、宇宙学参数估计\n\n### 地球科学（Earth Sciences）\n\n- 大气科学：气象数据分析、气候模型运行、空气质量预测\n- 地球科学：地震数据处理、地质建模、矿产资源评估\n- 海洋科学：海洋环流模拟、海洋生物数据分析、海平面变化研究\n\n### 数学科学（Mathematical Sciences）\n\n- 应用数学：数值分析、优化问题求解、微分方程模拟\n- 科学计算：高性能计算工作流、并行算法实现、计算网格生成\n- 数据科学与统计：统计推断、机器学习建模、大数据处理管道\n\n## 任务结构与评估机制\n\n每个TB-Science任务包含以下组件：\n\n任务描述：清晰的问题陈述，包括科学背景、输入数据、预期输出和评估标准。\n\n初始环境：预配置的终端环境，可能包含部分数据、代码模板或需要智能体自行获取资源。\n\n评估脚本：自动化的评分系统，检查输出正确性、代码质量、执行效率等维度。\n\n参考实现：由领域专家编写的Oracle解决方案，用于验证任务可行性和评估标准合理性。\n\n评估采用多维度指标：\n\n- 正确性：输出结果是否符合科学标准\n- 完整性：是否完成了任务的所有要求\n- 效率：解决方案的计算资源使用是否合理\n- 代码质量：代码的可读性、模块化程度和文档完整性\n\n## Harbor框架与执行环境\n\nTB-Science基于Harbor框架构建，这是一个专门为AI智能体评估设计的开源工具链：\n\n`bash\n# 安装Harbor\nuv tool install harbor\n\n# 运行Oracle参考实现\nharbor run -p tasks/<domain>/<field>/<task> -a oracle\n\n# 运行AI智能体评估\nharbor run -p tasks/<domain>/<field>/<task> -a <agent> -m <provider/model>\n`\n\nHarbor框架提供：\n\n- 隔离执行环境：每个任务在独立的容器中运行，确保可重复性和安全性\n- 资源监控：跟踪CPU、内存、磁盘和网络使用情况\n- 超时控制：防止智能体陷入无限循环或过度消耗资源\n- 日志记录：详细记录执行过程，支持事后分析和调试\n\n## 当前进展与社区参与\n\nTB-Science采用开源协作模式，欢迎科学界和AI研究社区的贡献。项目当前处于早期阶段，各领域任务数量正在逐步增长。\n\n贡献者可以通过以下方式参与：\n\n提交新任务：基于自己的研究经验，设计反映真实工作流的测试任务\n完善评估：改进现有任务的评估标准和验证脚本\n领域审核：作为领域专家审核任务设计的科学合理性\n工具集成：添加对新的科学计算工具和库的支持\n\n项目维护团队提供详细的贡献指南（CONTRIBUTING.md），包括任务设计规范、代码风格要求和提交流程。\n\n## 对AI for Science的意义\n\nTB-Science的推出标志着AI辅助科学研究进入了一个新的发展阶段：\n\n从玩具问题到真实挑战：现有的科学AI基准往往过于简化，TB-Science聚焦于真实世界的复杂性，推动模型能力的实质性提升。\n\n标准化评估：为科学AI领域提供了统一的评估语言，使不同模型、不同方法的结果具有可比性。\n\n跨学科整合：促进AI技术与各自然科学领域的深度融合，推动跨学科创新。\n\n加速科学发现：通过识别当前AI能力的短板，指引未来研究方向，最终目标是让AI成为科学家的真正助手，而非仅仅是工具。\n\n## 技术架构与实现细节\n\nTB-Science的技术栈包括：\n\n- 容器化执行：使用Docker确保环境一致性和可移植性\n- 版本控制：所有任务和评估脚本托管在GitHub，支持版本追踪和协作开发\n- CI/CD集成：自动化测试确保任务质量和框架稳定性\n- 多模型支持：兼容Anthropic Claude、OpenAI GPT、Google Gemini等主流模型\n\n项目采用Apache 2.0许可证开源，由斯坦福大学和Laude Institute托管，2077AI提供API计算资源支持。\n\n## 未来展望\n\nTB-Science的愿景是成为科学AI领域的ImageNet——一个推动技术进步的标志性基准。随着任务库的不断扩充和评估方法的持续完善，它将为AI for Science的发展提供重要的指引。\n\n短期内，项目计划：\n- 完成各领域首批核心任务的开发和验证\n- 建立领域专家审核机制，确保任务的科学严谨性\n- 举办社区竞赛，激发创新解决方案\n\n长期来看，TB-Science有望成为评估AI系统是否具备"研究助理"能力的事实标准，推动AI从辅助编程向辅助科学发现的跃迁。

章节 03

补充观点 1

Terminal-Bench-Science：评估AI智能体在真实科学计算工作流中的终端基准测试\n\n随着Claude Code、OpenAI Codex等AI编程助手的快速发展，AI辅助科学研究正成为新的技术前沿。然而，如何客观评估AI智能体在真实科学工作流中的表现，一直是该领域的关键挑战。Terminal-Bench-Science项目由斯坦福大学Harbor框架团队推出，旨在建立一个专门针对自然科学计算工作流的综合性基准测试平台，推动"科学领域的Claude Code时刻"的到来。\n\n基准测试的背景与动机\n\n现有的AI代码生成基准测试（如HumanEval、MBPP）主要关注算法实现和编程能力，而科学研究工作流涉及更复杂的端到端任务：数据获取与清洗、实验设计、统计分析、可视化、结果解释等。这些任务往往需要跨多个学科知识、使用专业工具链、处理真实世界的复杂数据。\n\nTerminal-Bench-Science的前身Terminal-Bench已经在代码生成领域获得广泛认可，出现在Claude Opus 4.6、GPT-5.3-Codex、Gemini 3.1 Pro等顶级模型的模型卡中。TB-Science在此基础上进一步扩展，专注于自然科学领域的计算研究工作流，填补了该领域标准化评估的空白。\n\n基准测试的设计理念\n\nTB-Science的设计遵循几个核心原则：\n\n真实工作流：测试任务不是抽象的编程题，而是反映真实科学家日常工作的端到端流程。例如，蛋白质结构预测、系外行星探测、气候数据分析等。\n\n终端环境：所有任务在真实的终端环境中执行，AI智能体需要像人类科学家一样使用命令行工具、编写脚本、安装依赖、调试错误。\n\n可验证输出：每个任务都有明确的评估标准和预期输出，支持自动化的正确性验证。\n\n跨学科覆盖：涵盖物理科学、生命科学、地球科学和数学科学四大领域，确保评估的全面性。\n\n科学领域覆盖范围\n\nTB-Science计划构建100+个测试任务，覆盖自然科学的主要分支：\n\n生命科学（Life Sciences）\n\n- 生物学：基因组分析、蛋白质结构预测、进化树构建、代谢通路分析\n- 神经科学：脑成像数据分析、神经元建模、认知实验数据处理\n- 医学：临床试验数据分析、医学影像处理、药物相互作用预测\n\n物理科学（Physical Sciences）\n\n- 物理学：粒子物理数据分析、量子系统模拟、天体物理计算\n- 化学与材料：分子动力学模拟、材料性质计算、化学反应路径优化\n- 天文学：系外行星探测、星系分类、宇宙学参数估计\n\n地球科学（Earth Sciences）\n\n- 大气科学：气象数据分析、气候模型运行、空气质量预测\n- 地球科学：地震数据处理、地质建模、矿产资源评估\n- 海洋科学：海洋环流模拟、海洋生物数据分析、海平面变化研究\n\n数学科学（Mathematical Sciences）\n\n- 应用数学：数值分析、优化问题求解、微分方程模拟\n- 科学计算：高性能计算工作流、并行算法实现、计算网格生成\n- 数据科学与统计：统计推断、机器学习建模、大数据处理管道\n\n任务结构与评估机制\n\n每个TB-Science任务包含以下组件：\n\n任务描述：清晰的问题陈述，包括科学背景、输入数据、预期输出和评估标准。\n\n初始环境：预配置的终端环境，可能包含部分数据、代码模板或需要智能体自行获取资源。\n\n评估脚本：自动化的评分系统，检查输出正确性、代码质量、执行效率等维度。\n\n参考实现：由领域专家编写的Oracle解决方案，用于验证任务可行性和评估标准合理性。\n\n评估采用多维度指标：\n\n- 正确性：输出结果是否符合科学标准\n- 完整性：是否完成了任务的所有要求\n- 效率：解决方案的计算资源使用是否合理\n- 代码质量：代码的可读性、模块化程度和文档完整性\n\nHarbor框架与执行环境\n\nTB-Science基于Harbor框架构建，这是一个专门为AI智能体评估设计的开源工具链：\n\nbash\n安装Harbor\nuv tool install harbor\n\n运行Oracle参考实现\nharbor run -p tasks/<domain>/<field>/<task> -a oracle\n\n运行AI智能体评估\nharbor run -p tasks/<domain>/<field>/<task> -a <agent> -m <provider/model>\n\n\nHarbor框架提供：\n\n- 隔离执行环境：每个任务在独立的容器中运行，确保可重复性和安全性\n- 资源监控：跟踪CPU、内存、磁盘和网络使用情况\n- 超时控制：防止智能体陷入无限循环或过度消耗资源\n- 日志记录：详细记录执行过程，支持事后分析和调试\n\n当前进展与社区参与\n\nTB-Science采用开源协作模式，欢迎科学界和AI研究社区的贡献。项目当前处于早期阶段，各领域任务数量正在逐步增长。\n\n贡献者可以通过以下方式参与：\n\n提交新任务：基于自己的研究经验，设计反映真实工作流的测试任务\n完善评估：改进现有任务的评估标准和验证脚本\n领域审核：作为领域专家审核任务设计的科学合理性\n工具集成：添加对新的科学计算工具和库的支持\n\n项目维护团队提供详细的贡献指南（CONTRIBUTING.md），包括任务设计规范、代码风格要求和提交流程。\n\n对AI for Science的意义\n\nTB-Science的推出标志着AI辅助科学研究进入了一个新的发展阶段：\n\n从玩具问题到真实挑战：现有的科学AI基准往往过于简化，TB-Science聚焦于真实世界的复杂性，推动模型能力的实质性提升。\n\n标准化评估：为科学AI领域提供了统一的评估语言，使不同模型、不同方法的结果具有可比性。\n\n跨学科整合：促进AI技术与各自然科学领域的深度融合，推动跨学科创新。\n\n加速科学发现：通过识别当前AI能力的短板，指引未来研究方向，最终目标是让AI成为科学家的真正助手，而非仅仅是工具。\n\n技术架构与实现细节\n\nTB-Science的技术栈包括：\n\n- 容器化执行：使用Docker确保环境一致性和可移植性\n- 版本控制：所有任务和评估脚本托管在GitHub，支持版本追踪和协作开发\n- CI/CD集成：自动化测试确保任务质量和框架稳定性\n- 多模型支持：兼容Anthropic Claude、OpenAI GPT、Google Gemini等主流模型\n\n项目采用Apache 2.0许可证开源，由斯坦福大学和Laude Institute托管，2077AI提供API计算资源支持。\n\n未来展望\n\nTB-Science的愿景是成为科学AI领域的ImageNet——一个推动技术进步的标志性基准。随着任务库的不断扩充和评估方法的持续完善，它将为AI for Science的发展提供重要的指引。\n\n短期内，项目计划：\n- 完成各领域首批核心任务的开发和验证\n- 建立领域专家审核机制，确保任务的科学严谨性\n- 举办社区竞赛，激发创新解决方案\n\n长期来看，TB-Science有望成为评估AI系统是否具备"研究助理"能力的事实标准，推动AI从辅助编程向辅助科学发现的跃迁。

Terminal-Bench-Science：评估AI智能体在真实科学计算工作流中的终端基准测试

导读 / 主楼：Terminal-Bench-Science：评估AI智能体在真实科学计算工作流中的终端基准测试

背景

补充观点 1

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

Azure GPU 虚拟机实战：4x V100 本地部署 70B+ 大模型的完整方案