章节 01
BoxTuning:重塑视频多模态模型物体理解的新范式
BoxTuning提出一种创新视觉提示方法,通过将彩色边界框和轨迹轨迹直接渲染到视频帧,解决传统文本坐标范式的模态不匹配问题。该方法实现87-93%的文本token削减,同时保持完整时间分辨率,在五个视频问答基准测试中超越现有基线,为视频多模态大模型的物体理解提供新范式。
正文
BoxTuning提出了一种创新的视觉提示方法,通过将彩色边界框和轨迹轨迹直接渲染到视频帧上,解决了传统文本坐标范式中的模态不匹配问题,实现了87-93%的文本token削减,同时保持完整的时间分辨率,在五个视频问答基准测试中超越了现有基线。
章节 01
BoxTuning提出一种创新视觉提示方法,通过将彩色边界框和轨迹轨迹直接渲染到视频帧,解决传统文本坐标范式的模态不匹配问题。该方法实现87-93%的文本token削减,同时保持完整时间分辨率,在五个视频问答基准测试中超越现有基线,为视频多模态大模型的物体理解提供新范式。
章节 02
视频问答(Video QA)需模型具备精细物体级时空理解能力,但现有多模态大语言模型(MLLMs)采用整体编码策略,缺乏显式物体定位机制。为弥补缺陷,近期研究将边界框坐标序列化为文本token输入,但存在模态不匹配问题:一是坐标序列token成本高,迫使时间下采样;二是动态信息丢失,影响对运动特性的理解。
章节 03
BoxTuning直接将物体时空信息注入视觉模态:
章节 04
BoxTuning的优势体现在:
章节 05
研究团队在五个视频问答基准测试BoxTuning:CLEVRER(物理推理)、Perception Test(基础感知)、STAR(时空推理)、NExT-QA(长视频理解)、IntentQA(意图理解)。结果显示,BoxTuning在空间导向任务显著超越文本坐标基线,推理密集型任务几乎消除传统方法的准确率下降。
章节 06
BoxTuning为多模态模型设计带来启示:
章节 07
BoxTuning仍有开放问题: