章节 01
DeltaDirect:解决Video-LLM的“运动方向盲”问题
本文介绍DeltaDirect方法,旨在解决视频大语言模型(Video-LLM)在感知物体运动方向上的根本性缺陷——“方向性运动盲”。研究发现多数Video-LLM无法准确判断物体左右上下运动方向,其根源在于“方向绑定缺口”(即模型虽隐式编码运动信息,但无法映射到离散语言概念)。DeltaDirect通过在投影层引入辅助目标函数预测相邻帧特征差分的2D运动向量,有效修复该缺口,提升真实世界视频的运动方向感知能力。
正文
本文介绍DeltaDirect方法,解决Video-LLM在感知物体运动方向上的根本性缺陷。研究发现多数视频大模型无法准确判断物体左右上下运动方向,提出通过投影层预测相邻帧特征差分的2D运动向量来修复这一"方向绑定缺口"。
章节 01
本文介绍DeltaDirect方法,旨在解决视频大语言模型(Video-LLM)在感知物体运动方向上的根本性缺陷——“方向性运动盲”。研究发现多数Video-LLM无法准确判断物体左右上下运动方向,其根源在于“方向绑定缺口”(即模型虽隐式编码运动信息,但无法映射到离散语言概念)。DeltaDirect通过在投影层引入辅助目标函数预测相邻帧特征差分的2D运动向量,有效修复该缺口,提升真实世界视频的运动方向感知能力。
章节 02
视频大语言模型在时序任务上进步显著,但存在“方向性运动盲”:在简单物体运动方向测试中准确率接近随机水平(25%),略高的结果多源于预测偏差而非真正理解。研究追踪信息流动发现,运动方向信息在视觉编码器、投影层及LLM隐藏状态中线性可解码,但模型无法将其与“向左/右”等语言概念绑定,此为“方向绑定缺口”。
章节 03
针对合成数据训练泛化性差的问题,DeltaDirect在投影层引入辅助目标函数:显式预测相邻帧特征差分编码的归一化2D运动向量。核心思路是保留并强化视觉编码器中的运动方向信号,通过辅助预测头接收投影后相邻帧特征差分,输出2D运动向量,与语言建模目标联合优化,建立稳固的方向感知机制。
章节 04
在真实世界视频基准MoDirect-RealBench上,DeltaDirect使运动方向准确率提升21.9个百分点,且无需真实训练数据。同时,在8个空间推理和通用视频问答基准上保持与基线相当或略优的性能,表明运动方向感知增强与整体理解能力正相关。此外,在ScanNet流式姿态估计任务上达到当前最优水平。
章节 05
DeltaDirect体现“诊断→修复”的研究范式:先通过系统性追踪(如线性探测)定位失败点(方向绑定缺口),再针对性设计方案。该范式避免盲目调参,线性探测等工具可定位信息瓶颈。同时,显式辅助任务设计有助于学习鲁棒可迁移的表示,优于单纯端到端训练。
章节 06
DeltaDirect的局限包括:仅针对2D平面运动,未涉及3D深度方向;聚焦单一物体运动,多物体场景适用性待验证。未来方向可探索3D运动感知、多物体场景扩展,以及将该方法论应用于其他时序感知缺陷(如事件顺序、因果关系)的诊断与修复。