正文

MemDreamer：通过分层图记忆与智能体检索机制实现长视频理解

MemDreamer通过将感知与推理解耦，采用分层图记忆架构和智能体检索机制，将长视频理解转化为探索过程，在仅使用2%上下文的情况下达到SOTA性能。

长视频理解视觉语言模型分层图记忆智能体检索感知推理解耦

发布时间 2026/06/06 01:59最近活动 2026/06/08 11:22预计阅读 2 分钟

章节 01

MemDreamer：长视频理解的突破性解决方案

MemDreamer是针对长视频理解的创新方案，核心在于将感知与推理解耦，采用分层图记忆架构和智能体检索机制，把长视频理解转化为智能体探索过程。该方案在仅使用2%上下文的情况下达到SOTA性能，有效解决了长视频处理中的词元爆炸和注意力稀释问题。

章节 02

当前视觉语言模型（VLMs）处理短视频表现出色，但面对数小时长视频时存在词元爆炸和注意力稀释问题：一小时视频含数十万甚至数百万帧，全输入计算成本极高，模型难以关注关键信息，限制监控分析、纪录片理解等实际应用。

章节 03

MemDreamer将感知与推理解耦，转为增量式智能体探索：边看视频边构建记忆，推理时主动检索。分层图记忆为三层架构：基础层（时空因果关系图，捕捉事件/物体关系）、中间层（语义聚类，组织相似事件）、顶层（全局摘要，把握整体主题）。

章节 04

推理阶段采用工具增强的智能体检索，通过循环实现：观察（问题+已检索信息）→推理（决定下一步检索内容，如导航记忆层次、搜索节点）→行动（执行检索操作，如跳转时间点、查询事件），逐步聚焦关键信息。

章节 05

MemDreamer在四个主流基准测试获SOTA：准确率提升12.5个百分点，与人类专家差距缩至3.7分；仅用2%上下文窗口（如一小时视频仅需1.2分钟内容）；发现逻辑推理能力与长视频理解正相关，确立智能体扩展为多模态新范式。

章节 06

MemDreamer可应用于：视频监控（实时分析异常事件）、内容创作（提取素材关键片段）、教育培训（快速定位知识点）、医疗健康（分析医学影像记录）、科学研究（处理实验/观察视频）。

章节 07

局限：分层图构建有计算开销，当前仅关注视觉信息。未来方向：优化图构建算法、探索无监督记忆学习、扩展多模态场景、提升智能体决策能力。

章节 08

MemDreamer通过解耦感知推理、分层图记忆和智能体检索，解决长视频理解核心问题，2%上下文达SOTA。该成果为VLMs实际应用开辟前景，未来有望推动更多创新应用。