Zing 论坛

正文

NucBench:首个面向核工程领域的多模态大语言模型评测基准

NucBench是第一个开源的多模态大语言模型评测基准,专门针对核工程应用场景设计。包含反应堆操作员执照考试(GFE)约4292道多选题、本科生核工程考试100+混合题型题目,以及两相流态图像识别数据集,为评估LLM在专业工程领域的知识掌握和推理能力提供标准化测试。

NucBench核工程LLM评测多模态基准测试反应堆热工水力两相流GFE核电站
发布时间 2026/05/11 18:54最近活动 2026/05/11 19:03预计阅读 2 分钟
NucBench:首个面向核工程领域的多模态大语言模型评测基准
1

章节 01

NucBench:首个核工程领域多模态LLM评测基准导读

NucBench是首个开源的核工程领域多模态大语言模型评测基准,由沙迦大学团队开发,包含反应堆操作员执照考试(GFE)约4292道多选题、100+本科生核工程混合题型题目及两相流态图像识别数据集,旨在为评估LLM在核工程领域的知识掌握和推理能力提供标准化测试。

2

章节 02

核工程领域AI应用的挑战与现有基准不足

核工程是高度专业化、安全要求极高的领域,涉及反应堆物理、热工水力等复杂知识体系。现有通用评测基准(如MMLU、GSM8K)缺乏专业工程领域深度覆盖,核工程需要模型解决定量计算、理解视觉信息等能力,因此NucBench应运而生。

3

章节 03

NucBench评测数据集的核心构成

包含三类任务:1. GFE考试:约4292道多选题,来自美国NRC,覆盖PWR/BWR堆型;2. 本科生核工程考试:100+混合题型,覆盖反应堆热工水力、物理等6个核心子领域;3. 两相流态图像识别:来自德州农工大学数据集,含泡状流、弹状流等4种流态类别。

4

章节 04

NucBench的评测目标与评估维度

目标是全面评估多模态LLM在核工程领域的知识广度、推理深度、多模态理解、专业语境适应及数值准确性等能力,涵盖从基础物理到工程实践的综合评估。

5

章节 05

NucBench的工程意义与应用前景

填补专业工程领域LLM评测空白,对模型开发者(标准化测试平台)、从业者(AI工具可靠性评估)、教育机构(AI辅助教学基准)及安全评估(初步筛选机制)均有价值,为其他工程领域基准开发提供参考。

6

章节 06

NucBench的局限性与未来方向

目前存在题目规模较小、题型局限(以选择题为主)、领域覆盖不足(聚焦反应堆工程)等问题,未来可扩展题目规模、增加开放式问答/自动评分题型、覆盖核燃料循环等领域并定期更新。

7

章节 07

NucBench的数据集结构与使用说明

数据集结构清晰,代码仓库包含exams、images、docs等目录,采用CC BY 4.0许可,允许自由使用、修改和再分发,促进核工程AI研究的协作和复现。