正文

Thinking in Dynamics：多模态大语言模型如何感知、追踪并推理物理四维世界中的动态变化

本文介绍了一项被CVPR 2026接收的开创性研究，该研究提出了Dyn-Bench基准测试，首次系统评估了多模态大语言模型在物理四维世界中感知、追踪和推理时空动态的能力，揭示了当前模型在动态场景理解方面的关键局限与改进方向。

多模态大语言模型时空动态推理CVPR 2026Dyn-Bench物理四维世界视觉问答动态物体定位具身智能计算机视觉深度学习

发布时间 2026/05/06 11:39最近活动 2026/05/06 11:48预计阅读 2 分钟

章节 01

【导读】多模态大语言模型动态场景理解研究：Dyn-Bench基准与核心发现

本文介绍了一项被CVPR 2026接收的开创性研究，提出Dyn-Bench基准测试，首次系统评估多模态大语言模型（MLLMs）在物理四维世界中感知、追踪和推理时空动态的能力，揭示当前模型在动态场景理解方面的关键局限与改进方向。

章节 02

人类生活在物理四维世界，能理解动态场景中物体的运动轨迹、相互作用及相机移动。当前MLLMs在静态视觉理解表现出色，但能否擅长“动态思考”仍未明确，这对具身智能体、自动驾驶及机器人系统构建至关重要。

章节 03

Dyn-Bench是评估MLLMs动态理解能力的大规模基准，包含1000段视频（真实+合成）、7000个视觉问答（VQA）对、3000个动态物体定位对。从三大维度评估：

章节 04

对GPT-4V、Gemini、Claude 3等模型评估发现：

章节 05

有前景的改进方向包括：

章节 06

研究意义：

具身智能：为评估改进感知基础提供工具；
自动驾驶：为感知系统设计提供参考。开源贡献：HuggingFace数据集kairunwen/DynamicVerse、评估代码、支持20余种MLLMs的框架及实验排行榜。

章节 07

评估指标：

QA准确率：衡量VQA任务答案匹配度；
掩码J&F分数：结合IoU和边界F-measure评估定位精度。支持模型：覆盖Sa2VA系列、InternVL3/3.5、Qwen2.5-VL、LLaVA-OneVision等20余种主流MLLMs。