章节 01
【导读】EgoPoint-Ground:AI理解手势指向的多模态视觉定位新突破
本文介绍了针对第一人称视角下手势指向理解与视觉定位的新工作——EgoPoint-Ground。该工作包含首个大规模多模态数据集(15000+交互样本),并提出SV-CoT结构化视觉推理方法,相比现有最佳方案实现11.7%的性能提升,推动视觉定位从纯语言向“语言+手势”多模态理解转变。
正文
第一人称视角下的手势指向理解与视觉定位数据集,包含15000+交互样本,提出的SV-CoT方法实现11.7%的性能提升。
章节 01
本文介绍了针对第一人称视角下手势指向理解与视觉定位的新工作——EgoPoint-Ground。该工作包含首个大规模多模态数据集(15000+交互样本),并提出SV-CoT结构化视觉推理方法,相比现有最佳方案实现11.7%的性能提升,推动视觉定位从纯语言向“语言+手势”多模态理解转变。
章节 02
传统视觉定位(VG)依赖纯语言描述,易因歧义导致判断错误。而人类真实交互常结合手势与语言,但现有多模态模型忽略此类非语言线索。第一人称视角下的手势指向理解还面临动态场景复杂、遮挡严重、多粒度需求及实时性要求等挑战。
章节 03
EgoPoint-Ground是首个针对第一人称视角指示性视觉定位的大规模数据集,含15000+交互样本,覆盖室内家居、厨房等多场景。每个样本提供手部-目标边界框对、密集语义描述等细粒度标注,支持手势-语言联合理解及场景推理研究。
章节 04
SV-CoT(结构化视觉思维链)将视觉定位分解为手势解析、空间推理、语义匹配、上下文验证四步推理。其创新在于把语言思维链扩展到视觉领域,每步产生可可视化中间结果,具有可解释性强、错误可追踪、模块化设计的优势。
章节 05
在EgoPoint-Ground数据集上的测试显示,SV-CoT相比现有最佳方法提升11.7%。对比纯语言、纯手势、简单融合等基线,结构化融合的效果显著。消融实验验证:去掉手势解析、空间推理、语义匹配模块分别导致6%、4%、5%的性能下降。
章节 06
该成果可应用于智能AR眼镜(理解手势+语言导航)、家庭服务机器人(准确执行指令)、视障辅助技术(精确物体描述)等场景,为自然交互AI系统提供基础。
章节 07
当前局限包括场景集中于室内、手势类型单一(仅手指指向)、未覆盖连续动态交互。未来方向:扩展户外/工业场景、支持更多手势类型、建模时序动态、探索轻量化模型适配边缘设备。