正文

DeltaDirect：解决视频大模型的"运动方向盲"问题

本文介绍DeltaDirect方法，解决Video-LLM在感知物体运动方向上的根本性缺陷。研究发现多数视频大模型无法准确判断物体左右上下运动方向，提出通过投影层预测相邻帧特征差分的2D运动向量来修复这一"方向绑定缺口"。

Video-LLM运动方向感知DeltaDirect视频理解多模态大模型方向绑定缺口时序推理计算机视觉

发布时间 2026/05/22 01:59最近活动 2026/05/22 21:51预计阅读 2 分钟

章节 01

DeltaDirect：解决Video-LLM的“运动方向盲”问题

本文介绍DeltaDirect方法，旨在解决视频大语言模型（Video-LLM）在感知物体运动方向上的根本性缺陷——“方向性运动盲”。研究发现多数Video-LLM无法准确判断物体左右上下运动方向，其根源在于“方向绑定缺口”（即模型虽隐式编码运动信息，但无法映射到离散语言概念）。DeltaDirect通过在投影层引入辅助目标函数预测相邻帧特征差分的2D运动向量，有效修复该缺口，提升真实世界视频的运动方向感知能力。

章节 02

Video-LLM的运动方向感知缺陷及根源

视频大语言模型在时序任务上进步显著，但存在“方向性运动盲”：在简单物体运动方向测试中准确率接近随机水平（25%），略高的结果多源于预测偏差而非真正理解。研究追踪信息流动发现，运动方向信息在视觉编码器、投影层及LLM隐藏状态中线性可解码，但模型无法将其与“向左/右”等语言概念绑定，此为“方向绑定缺口”。

章节 03

DeltaDirect：投影层辅助目标函数的解决方案

针对合成数据训练泛化性差的问题，DeltaDirect在投影层引入辅助目标函数：显式预测相邻帧特征差分编码的归一化2D运动向量。核心思路是保留并强化视觉编码器中的运动方向信号，通过辅助预测头接收投影后相邻帧特征差分，输出2D运动向量，与语言建模目标联合优化，建立稳固的方向感知机制。

章节 04

DeltaDirect的实验效果验证

在真实世界视频基准MoDirect-RealBench上，DeltaDirect使运动方向准确率提升21.9个百分点，且无需真实训练数据。同时，在8个空间推理和通用视频问答基准上保持与基线相当或略优的性能，表明运动方向感知增强与整体理解能力正相关。此外，在ScanNet流式姿态估计任务上达到当前最优水平。

章节 05