正文

GeoR-Bench：评估多模态模型地球科学视觉推理能力的新基准

香港中文大学等机构发布GeoR-Bench基准测试，涵盖440个样本、6大地学领域和24种任务类型。测试显示顶级闭源模型准确率仅42.7%，开源模型仅10.3%，揭示当前多模态AI在地球科学推理方面存在严重瓶颈。

GeoR-Bench地球科学多模态模型视觉推理基准测试遥感气候变化人工智能

发布时间 2026/05/12 13:13最近活动 2026/05/13 11:47预计阅读 2 分钟

章节 01

【导读】GeoR-Bench基准：多模态模型地球科学推理能力的严峻现状

章节 02

随着气候变化、自然灾害频发及环境保护压力增大，人类对理解和预测地球系统变化的智能系统需求迫切。地球科学智能已成为AI领域具社会价值的应用方向之一。然而，现有多模态大语言模型在地球科学推理任务上的表现缺乏系统性评估，现有基准多聚焦特定场景，难以反映真实世界开放性地球科学问题。

章节 03

GeoR-Bench是专为地球科学视觉推理设计的基准，将推理与视觉编辑任务结合。包含440个样本，覆盖6大核心地球科学类别：大气科学、水文科学、地质科学、生态科学、农业科学、人文地理，细分为24种任务类型，涵盖卫星遥感影像、地图、科学图表等形式。

章节 04

GeoR-Bench建立三维评估框架：1.推理能力：评估逻辑链条理解，如因果推断、时序分析、空间关系推理；2.一致性：检查视觉与科学逻辑的内部一致；3.质量：评估生成图像的视觉真实性和科学准确性。

章节 05

对21个主流多模态模型测试显示：顶级闭源模型总体严格准确率仅42.7%，表现最好的开源模型仅10.3%。普遍问题：视觉一致性和图像质量优于科学准确性，模型多进行表面模式匹配而非理解内在机制。

章节 06

地球科学推理面临三大挑战：1.跨时空长程推理需求；2.数据高度专业和领域特异性；3.需结合多源异构信息综合判断。

章节 07

未来模型开发应注重地球科学原理深层理解：引入更多科学文献、教科书知识和专家标注；融入领域特定归纳偏置；采用更严格科学准确性标准。GeoR-Bench为研究者提供评估工具，为开发者指明改进目标。

章节 08

GeoR-Bench填补地球科学AI评估空白，不仅是测试工具，更反映当前技术与可用地球科学智能的差距。在气候变化和环境保护紧迫的今天，缩小这一差距具重要现实意义。