正文

NucBench：首个面向核工程领域的多模态大语言模型评测基准

NucBench是第一个开源的多模态大语言模型评测基准，专门针对核工程应用场景设计。包含反应堆操作员执照考试（GFE）约4292道多选题、本科生核工程考试100+混合题型题目，以及两相流态图像识别数据集，为评估LLM在专业工程领域的知识掌握和推理能力提供标准化测试。

NucBench核工程LLM评测多模态基准测试反应堆热工水力两相流GFE核电站

发布时间 2026/05/11 18:54最近活动 2026/05/11 19:03预计阅读 2 分钟

章节 01

NucBench：首个核工程领域多模态LLM评测基准导读

NucBench是首个开源的核工程领域多模态大语言模型评测基准，由沙迦大学团队开发，包含反应堆操作员执照考试（GFE）约4292道多选题、100+本科生核工程混合题型题目及两相流态图像识别数据集，旨在为评估LLM在核工程领域的知识掌握和推理能力提供标准化测试。

章节 02

核工程是高度专业化、安全要求极高的领域，涉及反应堆物理、热工水力等复杂知识体系。现有通用评测基准（如MMLU、GSM8K）缺乏专业工程领域深度覆盖，核工程需要模型解决定量计算、理解视觉信息等能力，因此NucBench应运而生。

章节 03

包含三类任务：1. GFE考试：约4292道多选题，来自美国NRC，覆盖PWR/BWR堆型；2. 本科生核工程考试：100+混合题型，覆盖反应堆热工水力、物理等6个核心子领域；3. 两相流态图像识别：来自德州农工大学数据集，含泡状流、弹状流等4种流态类别。

章节 04

目标是全面评估多模态LLM在核工程领域的知识广度、推理深度、多模态理解、专业语境适应及数值准确性等能力，涵盖从基础物理到工程实践的综合评估。

章节 05

填补专业工程领域LLM评测空白，对模型开发者（标准化测试平台）、从业者（AI工具可靠性评估）、教育机构（AI辅助教学基准）及安全评估（初步筛选机制）均有价值，为其他工程领域基准开发提供参考。

章节 06

目前存在题目规模较小、题型局限（以选择题为主）、领域覆盖不足（聚焦反应堆工程）等问题，未来可扩展题目规模、增加开放式问答/自动评分题型、覆盖核燃料循环等领域并定期更新。

章节 07

数据集结构清晰，代码仓库包含exams、images、docs等目录，采用CC BY 4.0许可，允许自由使用、修改和再分发，促进核工程AI研究的协作和复现。