Zing 论坛

正文

DeltaDirect:解决视频大模型的"运动方向盲"问题

本文介绍DeltaDirect方法,解决Video-LLM在感知物体运动方向上的根本性缺陷。研究发现多数视频大模型无法准确判断物体左右上下运动方向,提出通过投影层预测相邻帧特征差分的2D运动向量来修复这一"方向绑定缺口"。

Video-LLM运动方向感知DeltaDirect视频理解多模态大模型方向绑定缺口时序推理计算机视觉
发布时间 2026/05/22 01:59最近活动 2026/05/22 21:51预计阅读 2 分钟
DeltaDirect:解决视频大模型的"运动方向盲"问题
1

章节 01

DeltaDirect:解决Video-LLM的“运动方向盲”问题

本文介绍DeltaDirect方法,旨在解决视频大语言模型(Video-LLM)在感知物体运动方向上的根本性缺陷——“方向性运动盲”。研究发现多数Video-LLM无法准确判断物体左右上下运动方向,其根源在于“方向绑定缺口”(即模型虽隐式编码运动信息,但无法映射到离散语言概念)。DeltaDirect通过在投影层引入辅助目标函数预测相邻帧特征差分的2D运动向量,有效修复该缺口,提升真实世界视频的运动方向感知能力。

2

章节 02

Video-LLM的运动方向感知缺陷及根源

视频大语言模型在时序任务上进步显著,但存在“方向性运动盲”:在简单物体运动方向测试中准确率接近随机水平(25%),略高的结果多源于预测偏差而非真正理解。研究追踪信息流动发现,运动方向信息在视觉编码器、投影层及LLM隐藏状态中线性可解码,但模型无法将其与“向左/右”等语言概念绑定,此为“方向绑定缺口”。

3

章节 03

DeltaDirect:投影层辅助目标函数的解决方案

针对合成数据训练泛化性差的问题,DeltaDirect在投影层引入辅助目标函数:显式预测相邻帧特征差分编码的归一化2D运动向量。核心思路是保留并强化视觉编码器中的运动方向信号,通过辅助预测头接收投影后相邻帧特征差分,输出2D运动向量,与语言建模目标联合优化,建立稳固的方向感知机制。

4

章节 04

DeltaDirect的实验效果验证

在真实世界视频基准MoDirect-RealBench上,DeltaDirect使运动方向准确率提升21.9个百分点,且无需真实训练数据。同时,在8个空间推理和通用视频问答基准上保持与基线相当或略优的性能,表明运动方向感知增强与整体理解能力正相关。此外,在ScanNet流式姿态估计任务上达到当前最优水平。

5

章节 05

诊断驱动的研究范式价值

DeltaDirect体现“诊断→修复”的研究范式:先通过系统性追踪(如线性探测)定位失败点(方向绑定缺口),再针对性设计方案。该范式避免盲目调参,线性探测等工具可定位信息瓶颈。同时,显式辅助任务设计有助于学习鲁棒可迁移的表示,优于单纯端到端训练。

6

章节 06

当前局限与未来研究方向

DeltaDirect的局限包括:仅针对2D平面运动,未涉及3D深度方向;聚焦单一物体运动,多物体场景适用性待验证。未来方向可探索3D运动感知、多物体场景扩展,以及将该方法论应用于其他时序感知缺陷(如事件顺序、因果关系)的诊断与修复。