章节 01
导读:多视角空间关系不变性评测工具简介
本文介绍multiview-invariance项目——基于ScanNet 3D场景构建的评测工具集,通过生成视角变化导致空间关系翻转的图像对,系统评估视觉语言模型(VLM)跨视角空间推理的一致性,为VLM三维空间推理能力提供严格基准。
正文
基于ScanNet 3D场景构建的评测工具集,通过生成视角变化导致空间关系翻转的图像对,系统评估视觉语言模型跨视角空间推理的一致性。
章节 01
本文介绍multiview-invariance项目——基于ScanNet 3D场景构建的评测工具集,通过生成视角变化导致空间关系翻转的图像对,系统评估视觉语言模型(VLM)跨视角空间推理的一致性,为VLM三维空间推理能力提供严格基准。
章节 02
人类观察三维场景时,视角变化不影响空间关系理解;但依赖二维图像训练的VLM,视角变化可能导致空间关系判断翻转。本项目针对此问题,构建测试案例评估VLM空间推理鲁棒性。
章节 03
生成渲染图像(高亮目标物体)、元数据JSON、可选箭头视角图像;以场景为单位划分训练/测试集避免信息泄露。
章节 04
内置OpenAI API支持,通过chatgpt_api.py和run_chatgpt_benchmark.py实现GPT-4V等模型批量评测,支持自定义提示词和问题模板。
章节 05
章节 06
multiview-invariance项目填补VLM空间推理评测领域工具空白,通过3D场景几何与2D VLM评测结合,提供严格可复现的测试平台,助力相关领域研究与应用发展。