# NucBench：首个面向核工程领域的多模态大语言模型评测基准

> NucBench是第一个开源的多模态大语言模型评测基准，专门针对核工程应用场景设计。包含反应堆操作员执照考试（GFE）约4292道多选题、本科生核工程考试100+混合题型题目，以及两相流态图像识别数据集，为评估LLM在专业工程领域的知识掌握和推理能力提供标准化测试。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-11T10:54:33.000Z
- 最近活动: 2026-05-11T11:03:34.251Z
- 热度: 154.8
- 关键词: NucBench, 核工程, LLM评测, 多模态, 基准测试, 反应堆, 热工水力, 两相流, GFE, 核电站
- 页面链接: https://www.zingnex.cn/forum/thread/nucbench
- Canonical: https://www.zingnex.cn/forum/thread/nucbench
- Markdown 来源: ingested_event

---

## 核工程领域的AI应用挑战

核工程是一个高度专业化、安全要求极高的领域，涉及反应堆物理、热工水力、燃料循环、辐射防护等复杂知识体系。随着大语言模型（LLM）能力的不断提升，评估其在核工程这类高风险专业领域的知识掌握和推理能力变得尤为重要。

然而，现有通用评测基准（如MMLU、GSM8K等）主要面向通识教育和基础数学，缺乏对专业工程领域的深度覆盖。核工程领域需要模型不仅能回答概念性问题，还要能解决涉及数值计算、物理公式推导的定量问题，同时具备理解工程图纸、流程图等视觉信息的能力。

NucBench应运而生，它是首个专门针对核工程应用场景设计的开源多模态大语言模型评测基准，由沙迦大学（University of Sharjah）的研究团队开发并维护。

## 评测数据集构成

NucBench包含三类核心评测任务，全面覆盖核工程领域的知识和能力要求：

### 反应堆操作员通用基础考试（GFE）

数据集来源：美国核管理委员会（U.S. Nuclear Regulatory Commission）官方发布的通用基础考试题库。

- **题目数量**：约4,292道多选题
- **覆盖堆型**：压水堆（PWR）和沸水堆（BWR）
- **考试性质**：美国核电站操作员执照考试的理论部分，是业界公认的专业能力标准

GFE题目涵盖反应堆运行的各个方面，包括正常运行工况、异常工况响应、紧急操作程序等。这些题目要求考生不仅掌握理论知识，还要理解实际运行中的工程判断和决策逻辑。

### 本科生核工程考试

由作者团队精心策划，旨在评估大语言模型在核工程本科高年级课程水平上的知识掌握程度。

- **题目数量**：100+道混合题型
- **题型分布**：定量计算题与定性概念题相结合
- **知识领域**：覆盖六个核心子领域

具体知识领域包括：

1. **反应堆热工水力（Thermal Hydraulics）**：单相/两相流动、传热分析、临界热流密度等定量与定性问题

2. **反应堆物理（Reactor Physics）**：中子扩散方程、反应性控制、燃耗计算等

3. **燃料循环（Fuel Cycle）**：铀浓缩、燃料制造、乏燃料后处理、放射性废物管理等

4. **核材料（Nuclear Materials）**：材料辐照损伤、腐蚀机制、结构材料选择等

5. **辐射防护（Radiation）**：剂量计算、屏蔽设计、辐射探测等

6. **通用/其他（General/Other）**：核法规、安全文化、质量保证等以定性理解为主的内容

这一数据集的设计平衡了数值求解能力与概念理解能力，真实反映了核工程教育中对学生的综合评估标准。

### 两相流态图像识别

除了文本问答，NucBench还包含视觉理解评测任务：

- **数据来源**：德州农工大学（Texas A&M University）发布的垂直环形通道两相流态图像数据集
- **引用信息**：Manikonda et al. (2025), Mendeley Data, V3, doi: 10.17632/nxncbzzz38.3
- **流态类别**：泡状流（Bubbly）、弹状流（Slug）、搅动流（Churn）、泰勒流（Taylor）

两相流态识别是反应堆热工水力分析的基础任务，不同流态对应完全不同的传热特性和压降规律。评估LLM对这类工程图像的理解能力，对于其在核工程视觉辅助诊断中的应用具有重要意义。

## 评测目标与评估维度

NucBench的设计目标是全面评估多模态大语言模型在核工程领域的以下能力：

**知识广度**：覆盖核工程主要子领域的专业知识，从基础物理到工程实践

**推理深度**：不仅考察事实性知识记忆，更关注物理推理、公式推导、数值计算能力

**多模态理解**：评估模型对工程图像、流程图、示意图的理解和分析能力

**专业语境**：测试模型在核工程特定术语、规范、安全文化背景下的表现

**数值准确性**：特别关注定量计算题的答案精度，这是工程应用的关键要求

## 数据集结构与使用

NucBench的代码仓库结构清晰，便于研究者使用：

```
NucBench/
├── exams/          # 考试数据集（操作员考试、本科生考试）
├── images/         # 标注的流态图像（如再分发受限则提供链接）
├── docs/           # GitHub Pages站点（项目主页）
├── CITATION.cff    # 机器可读引用文件
└── LICENSE         # 开放获取许可（CC BY 4.0）
```

数据集采用知识共享署名4.0许可（CC BY 4.0），允许自由使用、修改和再分发，只需注明原始出处。这一开放许可策略促进了核工程AI研究的协作和复现。

## 项目团队与学术背景

NucBench由沙迦大学核工程与安全研究组（NS3G）开发：

- **Bassam A. Khuwaileh** — 沙迦大学
- **Polina Matesha** — 沙迦大学
- **Dina Elhanan** — 沙迦大学

沙迦大学位于阿联酋，其核工程项目是中东地区重要的核能人才培养基地。开发团队结合教学实践经验和AI技术前沿，设计了这个既符合工程教育标准又适应大模型评测需求的基准测试。

## 工程意义与应用前景

NucBench的发布填补了专业工程领域LLM评测的空白，具有多重价值：

**对于模型开发者**：提供了一个标准化的核工程能力测试平台，帮助识别模型在专业领域的知识盲区和推理弱点

**对于核工程从业者**：可以评估AI辅助工具在培训、考试准备、知识查询等场景下的可靠性

**对于教育机构**：为核工程课程的AI辅助教学提供了能力基准，帮助判断何时可以信任AI生成的内容

**对于安全评估**：高风险领域对AI系统的可靠性要求极高，NucBench为核工程AI应用的安全评估提供了初步的筛选机制

## 局限性与未来方向

作为首个开源核工程LLM基准，NucBench也存在一些待完善之处：

- **题目规模**：相比通用基准数万题的规模，NucBench目前约4000+题的文本题库规模仍有扩展空间
- **题型局限**：主要采用选择题形式，未来可增加开放式问答、计算题自动评分等
- **领域覆盖**：目前聚焦反应堆工程，可扩展至核燃料循环、辐射医学、核 safeguards 等更广泛领域
- **动态更新**：核工程知识随技术发展而演进，基准需要定期更新以反映最新实践

尽管如此，NucBench为专业工程领域的AI评测树立了一个重要的起点，其设计思路和方法论可为其他工程领域（如航空航天、化工、电力系统）的类似基准开发提供参考。
