# GEO Benchmark：评估大语言模型气候数据预测能力的开源框架

> CliDyn团队开源的GEO Benchmark框架，通过生成全球地理网格、对比ERA5气候学数据，系统评估GPT、Claude、Gemini等主流LLM的温度与降水预测能力，揭示AI在地理空间推理任务中的优势与局限。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-12T10:45:43.000Z
- 最近活动: 2026-06-12T10:49:56.577Z
- 热度: 118.9
- 关键词: LLM评估, 气候数据, 地理空间AI, ERA5, 开源框架, GPT, Claude, Gemini, 机器学习, 气候科学
- 页面链接: https://www.zingnex.cn/forum/thread/geo-benchmark
- Canonical: https://www.zingnex.cn/forum/thread/geo-benchmark
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：CliDyn
- 来源平台：github
- 原始标题：geo_benchmark
- 原始链接：https://github.com/CliDyn/geo_benchmark
- 来源发布时间/更新时间：2026-06-12T10:45:43Z

## 原作者与来源\n\n- **原作者/维护者**：CliDyn团队\n- **来源平台**：GitHub\n- **原始标题**：geo_benchmark: LLM Climate Data Evaluation Framework\n- **原始链接**：https://github.com/CliDyn/geo_benchmark\n- **发布时间**：2024年（开源仓库）\n\n---\n\n## 项目背景：当大语言模型遇上气候科学\n\n近年来，大语言模型（LLM）在文本生成、代码编写、逻辑推理等领域展现出惊人的能力。然而，这些模型是否具备真实的"世界知识"——特别是关于地理空间分布和气候模式的理解——仍然是一个悬而未决的问题。气候科学家和AI研究者都在问：GPT-4知道赤道附近比极地热，但它能否准确预测具体城市的温度？\n\nCliDyn团队推出的**GEO Benchmark**框架正是为了回答这个问题而生。这是一个系统性的评估工具，通过让LLM预测全球各地的温度和降水数据，并与权威的气候学数据集（ERA5）进行对比，从而量化评估不同模型在地理空间推理任务上的表现。\n\n---\n\n## 核心机制：从网格生成到模型评估的完整 pipeline\n\nGEO Benchmark的工作流程可以分为四个关键阶段，每个阶段都经过精心设计以确保评估的科学性和可重复性。\n\n### 1. 地理网格生成与陆地识别\n\n框架首先通过`geo_mesh_processor.py`脚本生成全球地理坐标网格。用户可以指定分辨率（如1度、10度或20度），系统会创建一个覆盖全球的坐标点矩阵。关键在于，框架集成了Natural Earth的10米分辨率陆地shapefile，能够精确识别哪些坐标点位于陆地上、哪些位于海洋中。这一步骤确保了后续评估只针对有实际气候数据的陆地位置进行。\n\n生成后的网格数据以JSON和CSV两种格式存储，便于后续处理和可视化。用户还可以通过`plot_mesh.py`脚本直观地查看生成的网格与陆地边界的关系。\n\n### 2. 多提供商LLM查询支持\n\n框架的核心是`climate_llm_benchmark.py`脚本，它通过YAML配置文件支持多种LLM提供商：\n\n- **OpenAI**：GPT-4o、GPT-4o-mini、GPT-3.5-turbo等\n- **Anthropic**：Claude 3.5 Sonnet、Claude 3.5 Haiku\n- **Google**：Gemini 1.5 Pro、Gemini 1.5 Flash\n- **Ollama**：本地部署的Llama 3.1、Mistral、Qwen等开源模型\n\n配置方式极为灵活。用户只需编辑`config.yaml`文件，指定模型提供商、名称、温度参数、最大token数等，即可开始基准测试。框架还支持批量处理（batch mode）、断点续传（resume）、以及分布式并行处理，极大提升了大规模评估的效率。\n\n### 3. ERA5气候学数据对比\n\n评估的科学性依赖于权威的对比基准。GEO Benchmark采用欧洲中期天气预报中心（ECMWF）的ERA5再分析数据集，这是目前全球最权威的气候学数据之一。框架通过`process_era5_climatology.py`脚本处理原始的NetCDF格式数据，提取1991-2020年间的月平均温度和降水数据作为" ground truth"。\n\n`compare_llm_era5.py`脚本负责执行详细的对比分析，输出包括：\n\n- **统计指标**：均方根误差（RMSE）、平均绝对误差（MAE）、偏差（bias）、相关系数\n- **可视化图表**：LLM预测温度图、ERA5基准温度图、差异热力图、散点图（带误差条）\n- **组合数据**：将LLM预测与ERA5数据整合的JSON文件，便于后续深度分析\n\n### 4. 空间分析与多维度增强\n\n除了基础的温度对比，框架还提供了丰富的空间分析功能。`run_complete_analysis_pipeline.py`是一个一站式分析脚本，它会自动调用以下模块：\n\n- **空间RMSE计算**：评估预测误差在地理空间上的分布模式\n- **人口密度数据集成**：分析误差是否与人口密度相关（使用GPW人口数据）\n- **高程/水深数据集成**：通过GEBCO数据集引入海拔高度因素，探究地形对预测准确性的影响\n- **聚类分析**：基于海拔和人口进行3×3网格聚类，识别不同地理环境下的模型表现差异\n- **多元统计建模**：使用GAM（广义可加模型）和XGBoost分析误差与地理特征的关系\n\n---\n\n## 技术亮点：为什么这个框架值得关注\n\n### 支持分布式处理\n\n对于高分辨率网格（如1度分辨率，全球约6万个陆地格点），单进程处理可能耗时过长。框架提供了完整的分布式处理方案：通过`split_mesh.py`将网格切分为多个chunk，然后并行运行多个benchmark实例，最后用`combine_results.py`合并结果。这种设计使得大规模评估在普通计算资源上也能可行。\n\n### 模块化架构与可扩展性\n\n整个框架采用高度模块化的设计。每个功能（网格生成、LLM查询、数据分析、可视化）都是独立的Python脚本，既可以单独运行，也可以通过pipeline串联。这种设计使得研究者可以方便地替换其中的组件——比如接入新的LLM提供商、使用不同的气候数据集、或添加新的分析维度。\n\n### 本地模型支持\n\n与许多仅支持商业API的评估工具不同，GEO Benchmark通过Ollama集成完整支持本地部署的开源模型。这意味着研究者可以在没有API费用的情况下评估Llama、Mistral、Qwen等模型，也为关注数据隐私的用户提供了选择。\n\n---\n\n## 实际应用场景\n\nGEO Benchmark不仅是一个学术研究工具，它在多个实际场景中都展现出价值：\n\n**模型选型参考**：企业在选择用于地理相关应用的LLM时，可以用此框架快速对比候选模型的表现。\n\n**模型能力诊断**：通过分析误差的空间分布模式，研究者可以识别LLM在地理知识上的系统性盲点（如是否对热带地区预测更准、是否在高海拔地区误差更大）。\n\n**提示工程优化**：框架支持配置不同的查询参数（如月份、温度单位），研究者可以测试不同提示策略对预测准确性的影响。\n\n**教育演示**：气候科学和AI交叉领域的教学可以使用此框架直观展示LLM的能力边界。\n\n---\n\n## 局限与未来方向\n\n尽管GEO Benchmark已经提供了相当完整的功能，项目文档也坦诚地指出了一些当前局限：\n\n- **单一气候变量**：目前主要聚焦于2米高度温度（t2m），降水和其他气候变量的支持仍在发展中\n- **简单查询模式**：当前评估采用直接的温度询问方式，尚未深入探索链式推理（chain-of-thought）等高级提示技术\n- **静态基准**：ERA5数据是历史平均值，框架尚未涉及对极端天气事件或气候变化趋势的预测评估\n\n这些局限也为后续研究指明了方向。随着LLM能力的不断提升，GEO Benchmark有望成为追踪这一进展的标准化工具。\n\n---\n\n## 快速上手\n\n对于想要尝试的开发者，框架的使用流程非常简洁：\n\n```bash\n# 1. 安装依赖\npip install -r requirements.txt\n\n# 2. 生成10度分辨率网格\npython geo_mesh_processor.py 10\n\n# 3. 编辑 config.yaml 配置模型参数\n# 4. 运行基准测试\npython climate_llm_benchmark.py\n\n# 5. 对比ERA5数据并生成可视化\npython compare_llm_era5.py meshes/mesh_data_10.0deg.json results/climate_results_*.json data/t2m_climatology_1991-2020.nc\n```\n\n---\n\n## 结语\n\nGEO Benchmark代表了一种重要的AI评估范式：不再满足于抽象的能力测试，而是将模型置于真实的科学任务中，用客观数据检验其"知识"的真实性。在AI系统越来越多地被用于决策支持、气候建模、风险评估等领域的今天，这种严谨的评估方法尤为必要。\n\n对于关注AI与科学交叉领域的研究者、希望了解LLM真实能力边界的开发者，以及对气候数据感兴趣的技术爱好者，GEO Benchmark都是一个值得深入探索的开源项目。