章节 01
导读 / 主楼:HandVQA:诊断与提升视觉语言模型中手部精细空间推理能力
本文介绍CVPR 2026收录的HandVQA项目,这是一个大规模3D标注的手部视觉问答基准数据集,包含160万+样本,用于诊断和改进视觉语言模型在手部关节角度、距离和空间位置等方面的精细推理能力。
正文
本文介绍CVPR 2026收录的HandVQA项目,这是一个大规模3D标注的手部视觉问答基准数据集,包含160万+样本,用于诊断和改进视觉语言模型在手部关节角度、距离和空间位置等方面的精细推理能力。
章节 01
本文介绍CVPR 2026收录的HandVQA项目,这是一个大规模3D标注的手部视觉问答基准数据集,包含160万+样本,用于诊断和改进视觉语言模型在手部关节角度、距离和空间位置等方面的精细推理能力。
章节 02
尽管当前的视觉语言模型在通用视觉理解任务上表现出色,但在处理手部的精细空间关系时仍存在明显不足。手部是一个高度关节化的结构,包含27个骨骼和多个自由度,其姿态变化复杂且细微。现有的VQA数据集主要关注物体级别的识别和关系,缺乏针对手部关节级别空间推理的专门评测。
HandVQA项目填补了这一空白,通过构建基于3D手部关节标注的受控问答数据集,为研究者提供了一个精确诊断VLM手部理解能力的工具。
章节 03
HandVQA基于三个知名的手部数据集构建:
这些数据集提供了高质量的3D手部关节位置标注,为生成几何精确的问答对奠定了基础。
章节 04
HandVQA将3D手部关节转换为几何基础的姿态描述符和受控的多项选择题。具体而言,项目定义了五类空间推理问题:
章节 05
与需要人工标注的VQA数据集不同,HandVQA的所有标签都是直接从3D手部关节几何计算得出的。这种确定性监督确保了标签的100%准确性,消除了标注噪声对模型评估的干扰。
章节 06
HandVQA包含超过160万个视觉问答样本,是迄今为止规模最大的手部专用VQA数据集。其主要特点包括:
数据集的规模确保了模型训练的充分性,而多样化的推理类型则全面覆盖了手部空间理解的各个维度。
章节 07
通过HandVQA基准测试,研究团队发现了一些重要现象:
章节 08
即使是最强大的视觉语言模型,在手部的细微关节姿态和精确几何推理方面仍然表现不佳。这表明当前的主流架构在处理细粒度空间关系时存在结构性缺陷。