Zing 论坛

正文

SAMA数据集:评估视觉语言模型空间推理能力的VQA基准

加州大学河滨分校推出的首个大规模VQA数据集,专门用于评估视觉语言模型在非标准景点地图上的局部空间推理能力,包含4296个问答对。

SAMA数据集VQA视觉语言模型空间推理景点地图加州大学河滨分校基准测试多模态AI
发布时间 2026/06/17 09:16最近活动 2026/06/17 09:23预计阅读 2 分钟
SAMA数据集:评估视觉语言模型空间推理能力的VQA基准
2

章节 02

项目背景与动机

随着视觉语言模型(VLMs)在图像理解等任务的进展,评估其空间推理能力愈发重要。传统VQA基准多基于标准地图或自然图像,而真实导航场景常用非标准景点地图(如主题公园、商场图),这类地图非比例绘制、无标准坐标,给AI带来独特挑战。SAMA数据集正是为填补这一评估空白而生。

3

章节 03

数据生成方法与许可证

SAMA采用人机协作生成数据:先用Gemini 3 Pro/Gemma 3生成初始问答对,再经100%人工验证和修订确保质量。数据集采用MIT许可证开源,允许自由使用、修改和分发。

4

章节 04

数据集概况(证据)

SAMA包含49张真实景点地图(涵盖主题公园、动物园等6类),共4296个问答对,问题类型包括设施搜索、相对定位等。问答对按地图类别以JSON组织,含完整元数据,例如购物中心类问题涉及设施数量或相对方向查询。

5

章节 05

核心挑战与特色

非标准景点地图具有非比例绘制、无地理坐标、符号化表示、视角多样等特点,使传统地理推理方法失效。SAMA聚焦局部空间推理,要求模型识别符号、理解相对方向、进行路径规划等。

6

章节 06

研究意义与应用价值(结论)

SAMA为评估VLM空间推理提供标准化平台,可帮助识别模型瓶颈、比较架构优劣。其成果可应用于智能导览、室内导航、辅助技术、机器人导航等场景。

7

章节 07

当前局限性

SAMA存在以下局限:语言上仅支持英语;地图类型虽多样但仍可扩展(如医院、校园);4296个问答对属中等规模,需更大规模提升泛化能力。

8

章节 08

未来方向建议

未来可扩展多语言支持、增加动态地图、引入多轮对话VQA任务、开发专用模型架构等,以进一步完善数据集。