章节 01
【导读】LithoBench基准:评估多模态大模型遥感岩石学解读能力
本文介绍LithoBench基准测试,用于评估大视觉语言模型在遥感岩石学解读任务上的地质语义理解能力。该基准包含10,000个专家标注样本,涵盖五个认知层级,实验揭示现有模型在高阶推理任务上存在显著局限。
正文
本文介绍LithoBench基准测试,用于评估大视觉语言模型在遥感岩石学解读任务上的地质语义理解能力。该基准包含10,000个专家标注样本,涵盖五个认知层级,实验揭示现有模型在高阶推理任务上存在显著局限。
章节 01
本文介绍LithoBench基准测试,用于评估大视觉语言模型在遥感岩石学解读任务上的地质语义理解能力。该基准包含10,000个专家标注样本,涵盖五个认知层级,实验揭示现有模型在高阶推理任务上存在显著局限。
章节 02
遥感岩石学解读是地质调查、矿产勘探和区域地质制图的基础性工作,是高度知识密集型任务,专家需综合视觉、光谱等多种线索推断岩石类型,传统方法仅能处理简单分类,面临类内差异大、类间差异小的挑战。近年多模态大模型带来机遇,但缺乏全面评估其地质语义理解能力的基准测试,现有通用基准过于简单且缺乏专家级评估标准。
章节 03
LithoBench是专门评估遥感岩石学解读中地质语义理解的多层次基准,特点包括:规模与多样性(10,000专家标注实例,12种代表性岩石类别);任务类型全面(4000道多选题+6000道开放式问题);五层认知架构(识别与描述、比较分析、机制解释、实际应用、综合推理),可精确定位模型能力边界。
章节 04
为确保数据有效性,采用专家参与、知识驱动的半自动化构建流程:结构化地质图像描述(专业地质学家标注岩石类型、纹理等关键信息);多轮质量审核(至少两位专家独立审核,分歧引入第三位仲裁);难度分级(按专家评估分配认知层级)。
章节 05
主流大视觉语言模型在LithoBench上的评估结果显示:高阶推理仍是短板(基础识别尚可,机制解释、应用、综合推理不足);知识整合能力不足(处理多源信息复杂问题表现差);开放式问题更具挑战性(需正确答案+合理解释)。
章节 06
LithoBench提供标准化评测平台,帮助客观评估现有模型能力并指明开发方向。其揭示当前多模态模型处理深层领域知识任务的显著局限,提示需关注知识深度整合与推理能力提升。未来有望成为推动地质语义理解研究的重要工具,助力开发专家级地质知识的多模态AI系统。