正文

GeoBrowse：结合视觉推理与多跳验证的地理定位智能体评测基准

本文介绍GeoBrowse基准测试，通过地理定位任务评估多模态智能体的工具使用能力，结合视觉线索组合与开放式网络验证，为深度研究智能体的发展提供新的评测框架。

地理定位多模态智能体工具使用视觉推理基准测试深度研究

发布时间 2026/04/05 16:29最近活动 2026/04/07 15:33预计阅读 2 分钟

章节 01

【导读】GeoBrowse基准：评估多模态智能体的新框架

本文介绍GeoBrowse基准测试，旨在评估多模态智能体的工具使用能力。该基准结合视觉线索组合与开放式网络验证，为深度研究智能体的发展提供了新的评测框架。GeoBrowse通过地理定位任务，考察智能体整合多源信息、利用外部知识验证的能力，填补了现有评测基准在视觉与多跳推理结合方面的空白。

章节 02

背景：智能体评测的挑战与地理定位的优势

随着深度研究智能体的兴起，其能力评估面临挑战。现有基准存在局限：BrowseComp专注纯文本多跳推理但缺乏视觉考察，多模态基准则少同时要求弱视觉线索组合与多跳验证。地理定位是理想评测场景，因其需多源视觉线索整合（建筑风格、路牌等）、开放式知识验证（如搜索文字信息确认地点），且基于真实世界场景，能反映智能体实际表现。

章节 03

方法：GeoBrowse基准架构与GATE智能体设计

GeoBrowse基准含两级难度：Level1测试视觉线索提取与组合能力；Level2引入长尾知识和实体混淆，测试深度推理。配套GATE智能体工作流有9种工具：5种图像思考工具（细节观察、文本识别等）支持视觉分析，4种知识密集型工具（事实验证、地理查询等）支持网络检索。此外，提供专家标注的推理轨迹，支持轨迹级分析。

章节 04

证据：实验结果揭示工具使用的关键价值

实验显示GATE显著优于直接推理和开源基线。关键发现：纯感知或纯搜索不足，需视觉与知识结合；工具组合协同使用比单一工具更有效；GATE的优势来自连贯的领域特定计划（Level1优先图像工具，Level2积极调用知识工具）、达成关键证据步骤、整合阶段错误少。且性能提升源于合理工具使用计划，非单纯增加调用次数。

章节 05