Zing 论坛

正文

SAMA数据集:评测视觉语言模型在非标准导览图空间推理能力的新基准

加州大学河滨分校推出的SAMA数据集包含49张真实场景导览图和4296组问答对,专门用于评估VLM在主题游乐园、动物园、度假村等非标准地图上的空间推理能力。

VQA视觉问答视觉语言模型空间推理导览地图多模态AI基准数据集Vision-Language ModelsSpatial Reasoning
发布时间 2026/06/17 09:16最近活动 2026/06/17 09:20预计阅读 2 分钟
SAMA数据集:评测视觉语言模型在非标准导览图空间推理能力的新基准
1

章节 01

SAMA数据集:评估视觉语言模型非标准导览图空间推理能力的新基准

加州大学河滨分校推出的SAMA数据集,是首个针对非标准景点导览图的大规模视觉问答基准。该数据集包含49张真实场景导览图(涵盖主题公园、动物园、度假村等6大类)和4296组人工校验的问答对,旨在填补现有视觉语言模型(VLM)在非标准化地图空间推理能力评测方面的空白。

2

章节 02

背景与动机:现有VLM评测的局限与真实场景需求

随着多模态大模型发展,VLM在图像理解、图文问答上取得进展,但现有基准多聚焦标准场景(自然图像、标准地图等)。现实中大量非标准化导览图(如游乐园示意图)不按比例、用风格化符号,传统VQA数据集未覆盖这类场景。SAMA数据集旨在回答:VLM能否理解非标准导览图的空间关系,如'从旋转木马到过山车怎么走'这类问题?

3

章节 03

数据集概览:规模、类别与问题类型

SAMA(Spatial Answering over Maps of Attractions)数据集核心统计:49张真实导览图、4296组人工校验问答对;涵盖6大类场景(主题公园、动物园、度假村、购物中心、博物馆、步道);问题类型包括设施搜索、图例符号解读、相对位置判断、方向导航等。数据生成结合Gemini 3 Pro/Gemma3辅助与100%人工校验。

4

章节 04

数据结构与示例:JSON格式及典型问答

SAMA数据集按地图类别组织为JSON文件,每条问答记录含question_idimage_idquestionreference_answers等字段。示例:商场类问题'How many Clothing stores are there in the mall?'答案为'10.0';空间方位问题'In which map direction is Swarovski located relative to Sushi Siam?'答案为'Southwest'。

5

章节 05

评测维度:VLM需应对的四大挑战

SAMA数据集从四维度评估VLM:1.符号与图例理解(映射设施名称到风格化符号);2.相对位置推理(无比例地图上的'左边'/'附近'等关系);3.方向与导航理解(路径规划、方向判断);4.跨类别泛化(迁移不同场景导览图的推理能力)。

6

章节 06

研究意义与应用:推动VLM发展与智能导览

SAMA的意义:1.为VLM空间推理提供标准化基准,识别模型能力边界;2.助力智能导览助手开发(如游客拍摄导览图询问路线);3.作为多模态AI教育案例,帮助理解VLM能力与挑战。

7

章节 07

获取与使用:开源许可及资源内容

SAMA数据集以MIT许可证开源,包含:data/目录(JSON格式问答数据)、maps/目录(导览图图片)、README.md(使用说明)。数据集构建结合LLM生成与人工校验,确保质量。

8

章节 08

总结与展望:填补空白,期待模型突破

SAMA填补了VLM在非标准导览图空间推理评测的空白,为评估和提升VLM真实场景空间理解能力提供工具。期待未来更多模型在SAMA上取得突破,实现更智能的视觉问答系统,帮助人们导航复杂空间环境。