Zing 论坛

正文

Thinking in Dynamics:多模态大语言模型如何感知、追踪并推理物理四维世界中的动态变化

本文介绍了一项被CVPR 2026接收的开创性研究,该研究提出了Dyn-Bench基准测试,首次系统评估了多模态大语言模型在物理四维世界中感知、追踪和推理时空动态的能力,揭示了当前模型在动态场景理解方面的关键局限与改进方向。

多模态大语言模型时空动态推理CVPR 2026Dyn-Bench物理四维世界视觉问答动态物体定位具身智能计算机视觉深度学习
发布时间 2026/05/06 11:39最近活动 2026/05/06 11:48预计阅读 2 分钟
Thinking in Dynamics:多模态大语言模型如何感知、追踪并推理物理四维世界中的动态变化
1

章节 01

【导读】多模态大语言模型动态场景理解研究:Dyn-Bench基准与核心发现

本文介绍了一项被CVPR 2026接收的开创性研究,提出Dyn-Bench基准测试,首次系统评估多模态大语言模型(MLLMs)在物理四维世界中感知、追踪和推理时空动态的能力,揭示当前模型在动态场景理解方面的关键局限与改进方向。

2

章节 02

研究背景:MLLMs动态思考能力的未解之谜

人类生活在物理四维世界,能理解动态场景中物体的运动轨迹、相互作用及相机移动。当前MLLMs在静态视觉理解表现出色,但能否擅长“动态思考”仍未明确,这对具身智能体、自动驾驶及机器人系统构建至关重要。

3

章节 03

Dyn-Bench:首个大规模时空动态推理基准详解

Dyn-Bench是评估MLLMs动态理解能力的大规模基准,包含1000段视频(真实+合成)、7000个视觉问答(VQA)对、3000个动态物体定位对。从三大维度评估:

  1. 相机-物体维度:理解物体相对相机运动;
  2. 物体间维度:推理物体交互与相对动态;
  3. 物体-场景维度:分析物体与场景互动及演化。
4

章节 04

核心发现:当前MLLMs在动态理解中的共性局限

对GPT-4V、Gemini、Claude 3等模型评估发现:

  1. 语言推理与视觉定位难以兼得;
  2. 复杂场景下运动交互解释存在矛盾;
  3. 传统提示策略(如思维链)提升效果有限。
5

章节 05

改进方向:结构化整合方法

有前景的改进方向包括:

  1. 掩码引导融合:将物体分割掩码融入推理,提升动态物体追踪能力;
  2. 时空文本认知图(ST-TCM):构建结构化时空关系表示,模拟人类时空推理过程。
6

章节 06

研究意义:对具身智能与自动驾驶的启示及开源贡献

研究意义:

  • 具身智能:为评估改进感知基础提供工具;
  • 自动驾驶:为感知系统设计提供参考。 开源贡献:HuggingFace数据集kairunwen/DynamicVerse、评估代码、支持20余种MLLMs的框架及实验排行榜。
7

章节 07

技术细节:评估指标与支持模型范围

评估指标:

  • QA准确率:衡量VQA任务答案匹配度;
  • 掩码J&F分数:结合IoU和边界F-measure评估定位精度。 支持模型:覆盖Sa2VA系列、InternVL3/3.5、Qwen2.5-VL、LLaVA-OneVision等20余种主流MLLMs。