章节 01
SAMA数据集:评估视觉语言模型非标准导览图空间推理能力的新基准
加州大学河滨分校推出的SAMA数据集,是首个针对非标准景点导览图的大规模视觉问答基准。该数据集包含49张真实场景导览图(涵盖主题公园、动物园、度假村等6大类)和4296组人工校验的问答对,旨在填补现有视觉语言模型(VLM)在非标准化地图空间推理能力评测方面的空白。
正文
加州大学河滨分校推出的SAMA数据集包含49张真实场景导览图和4296组问答对,专门用于评估VLM在主题游乐园、动物园、度假村等非标准地图上的空间推理能力。
章节 01
加州大学河滨分校推出的SAMA数据集,是首个针对非标准景点导览图的大规模视觉问答基准。该数据集包含49张真实场景导览图(涵盖主题公园、动物园、度假村等6大类)和4296组人工校验的问答对,旨在填补现有视觉语言模型(VLM)在非标准化地图空间推理能力评测方面的空白。
章节 02
随着多模态大模型发展,VLM在图像理解、图文问答上取得进展,但现有基准多聚焦标准场景(自然图像、标准地图等)。现实中大量非标准化导览图(如游乐园示意图)不按比例、用风格化符号,传统VQA数据集未覆盖这类场景。SAMA数据集旨在回答:VLM能否理解非标准导览图的空间关系,如'从旋转木马到过山车怎么走'这类问题?
章节 03
SAMA(Spatial Answering over Maps of Attractions)数据集核心统计:49张真实导览图、4296组人工校验问答对;涵盖6大类场景(主题公园、动物园、度假村、购物中心、博物馆、步道);问题类型包括设施搜索、图例符号解读、相对位置判断、方向导航等。数据生成结合Gemini 3 Pro/Gemma3辅助与100%人工校验。
章节 04
SAMA数据集按地图类别组织为JSON文件,每条问答记录含question_id、image_id、question、reference_answers等字段。示例:商场类问题'How many Clothing stores are there in the mall?'答案为'10.0';空间方位问题'In which map direction is Swarovski located relative to Sushi Siam?'答案为'Southwest'。
章节 05
SAMA数据集从四维度评估VLM:1.符号与图例理解(映射设施名称到风格化符号);2.相对位置推理(无比例地图上的'左边'/'附近'等关系);3.方向与导航理解(路径规划、方向判断);4.跨类别泛化(迁移不同场景导览图的推理能力)。
章节 06
SAMA的意义:1.为VLM空间推理提供标准化基准,识别模型能力边界;2.助力智能导览助手开发(如游客拍摄导览图询问路线);3.作为多模态AI教育案例,帮助理解VLM能力与挑战。
章节 07
SAMA数据集以MIT许可证开源,包含:data/目录(JSON格式问答数据)、maps/目录(导览图图片)、README.md(使用说明)。数据集构建结合LLM生成与人工校验,确保质量。
章节 08
SAMA填补了VLM在非标准导览图空间推理评测的空白,为评估和提升VLM真实场景空间理解能力提供工具。期待未来更多模型在SAMA上取得突破,实现更智能的视觉问答系统,帮助人们导航复杂空间环境。