正文

SAMA数据集：评测视觉语言模型在非标准导览图空间推理能力的新基准

加州大学河滨分校推出的SAMA数据集包含49张真实场景导览图和4296组问答对，专门用于评估VLM在主题游乐园、动物园、度假村等非标准地图上的空间推理能力。

VQA视觉问答视觉语言模型空间推理导览地图多模态AI基准数据集Vision-Language ModelsSpatial Reasoning

发布时间 2026/06/17 09:16最近活动 2026/06/17 09:20预计阅读 2 分钟

章节 01

SAMA数据集：评估视觉语言模型非标准导览图空间推理能力的新基准

加州大学河滨分校推出的SAMA数据集，是首个针对非标准景点导览图的大规模视觉问答基准。该数据集包含49张真实场景导览图（涵盖主题公园、动物园、度假村等6大类）和4296组人工校验的问答对，旨在填补现有视觉语言模型（VLM）在非标准化地图空间推理能力评测方面的空白。

章节 02

背景与动机：现有VLM评测的局限与真实场景需求

随着多模态大模型发展，VLM在图像理解、图文问答上取得进展，但现有基准多聚焦标准场景（自然图像、标准地图等）。现实中大量非标准化导览图（如游乐园示意图）不按比例、用风格化符号，传统VQA数据集未覆盖这类场景。SAMA数据集旨在回答：VLM能否理解非标准导览图的空间关系，如'从旋转木马到过山车怎么走'这类问题？

章节 03

数据集概览：规模、类别与问题类型

SAMA（Spatial Answering over Maps of Attractions）数据集核心统计：49张真实导览图、4296组人工校验问答对；涵盖6大类场景（主题公园、动物园、度假村、购物中心、博物馆、步道）；问题类型包括设施搜索、图例符号解读、相对位置判断、方向导航等。数据生成结合Gemini 3 Pro/Gemma3辅助与100%人工校验。

章节 04

数据结构与示例：JSON格式及典型问答

SAMA数据集按地图类别组织为JSON文件，每条问答记录含question_id、image_id、question、reference_answers等字段。示例：商场类问题'How many Clothing stores are there in the mall?'答案为'10.0'；空间方位问题'In which map direction is Swarovski located relative to Sushi Siam?'答案为'Southwest'。

章节 05

评测维度：VLM需应对的四大挑战

SAMA数据集从四维度评估VLM：1.符号与图例理解（映射设施名称到风格化符号）；2.相对位置推理（无比例地图上的'左边'/'附近'等关系）；3.方向与导航理解（路径规划、方向判断）；4.跨类别泛化（迁移不同场景导览图的推理能力）。

章节 06

研究意义与应用：推动VLM发展与智能导览

SAMA的意义：1.为VLM空间推理提供标准化基准，识别模型能力边界；2.助力智能导览助手开发（如游客拍摄导览图询问路线）；3.作为多模态AI教育案例，帮助理解VLM能力与挑战。

章节 07

获取与使用：开源许可及资源内容

SAMA数据集以MIT许可证开源，包含：data/目录（JSON格式问答数据）、maps/目录（导览图图片）、README.md（使用说明）。数据集构建结合LLM生成与人工校验，确保质量。

章节 08

总结与展望：填补空白，期待模型突破

SAMA填补了VLM在非标准导览图空间推理评测的空白，为评估和提升VLM真实场景空间理解能力提供工具。期待未来更多模型在SAMA上取得突破，实现更智能的视觉问答系统，帮助人们导航复杂空间环境。

SAMA数据集：评测视觉语言模型在非标准导览图空间推理能力的新基准

SAMA数据集：评估视觉语言模型非标准导览图空间推理能力的新基准

背景与动机：现有VLM评测的局限与真实场景需求

数据集概览：规模、类别与问题类型

数据结构与示例：JSON格式及典型问答

评测维度：VLM需应对的四大挑战

研究意义与应用：推动VLM发展与智能导览

获取与使用：开源许可及资源内容

总结与展望：填补空白，期待模型突破

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎