章节 01
SGREC:基于查询驱动场景图的零样本指代表达理解新方法(导读)
SGREC通过构建查询驱动的场景图作为视觉与语言之间的结构化桥梁,结合视觉语言模型(VLM)和大型语言模型(LLM)的优势,在零样本设置下实现了可解释的指代表达理解,并在多个基准测试中取得领先性能。
正文
SGREC通过构建查询驱动的场景图作为视觉与语言之间的结构化桥梁,结合VLM和LLM的优势,在零样本设置下实现了可解释的指代表达理解,并在多个基准测试中取得领先性能。
章节 01
SGREC通过构建查询驱动的场景图作为视觉与语言之间的结构化桥梁,结合视觉语言模型(VLM)和大型语言模型(LLM)的优势,在零样本设置下实现了可解释的指代表达理解,并在多个基准测试中取得领先性能。
章节 02
指代表达理解(REC)是计算机视觉与自然语言处理交叉领域的核心任务,目标是根据自然语言描述定位图像中的特定对象。传统REC依赖大量标注数据,而零样本REC要求模型在无任务特定训练数据时通过文本查询定位目标,成为研究热点。
现有VLMs(如CLIP)直接度量文本与图像区域特征相似度,难以捕捉细粒度细节和复杂对象关系;LLMs擅长语义推理,但无法直接将视觉特征抽象为文本语义,限制其在REC中的应用。
章节 03
SGREC的核心创新是引入场景图作为视觉与语言的结构化中介,结合VLM的视觉感知能力和LLM的语义推理能力。整体架构包含三个阶段:
章节 04
场景图是SGREC的核心组件,采用查询驱动策略:
章节 05
SGREC通过场景图解决模态鸿沟问题:
章节 06
章节 07
SGREC在多个零样本REC基准测试中表现领先:
章节 08
SGREC为视觉-语言融合领域提供新思路:通过结构化中间表示结合不同模态模型优势,解决可解释性难题;代表模块化、可解释推理链条的新范式,可推广到视觉问答、图像描述生成等任务。
随着VLM和LLM能力提升,场景图方法有望应用于自动驾驶(理解交通场景对象关系)、机器人(支持自然人机交互)等复杂场景。