Zing 论坛

正文

Minerva-Ego:时空提示助力第一人称视角视频理解新基准

本文介绍Minerva-Ego基准测试,通过多步多模态问题和时空密集的人工推理轨迹,评估第一人称视角视频推理能力,发现"何时"和"何处"的提示能显著提升模型表现。

第一人称视频具身智能时空推理视频理解基准测试视觉问答多模态
发布时间 2026/05/15 03:12最近活动 2026/05/18 11:24预计阅读 3 分钟
Minerva-Ego:时空提示助力第一人称视角视频理解新基准
1

章节 01

导读:Minerva-Ego基准简介

导读:Minerva-Ego基准简介

Minerva-Ego是针对第一人称视角视频理解的新基准,通过多步多模态问题和时空密集的人工推理轨迹评估模型的推理能力。核心发现是提供"何时"(时间定位)和"何处"(空间定位)的提示能显著提升模型表现,为该领域的模型设计与训练提供重要方向。

2

章节 02

研究背景:第一人称视频理解的挑战

研究背景:第一人称视频理解的挑战

第一人称视角视频在机器人学习、辅助技术、动作识别、增强现实等场景具有独特价值,但现有评估基准存在局限:

  1. 输出导向评估:仅关注最终答案,忽略中间推理过程;
  2. 单一模态输出:缺乏空间/时间定位信息;
  3. 缺乏细粒度注释:难以分析模型失败模式。
3

章节 03

Minerva-Ego基准构建:数据集与注释

Minerva-Ego基准构建:数据集与注释

数据集构建

  • 高质量第一人称/具身环境视频,保证场景多样性;
  • 多步推理问题,需整合多时空信息;
  • 人工标注推理轨迹(关键帧、空间区域、中间步骤等)。

细粒度时空掩码注释

  • 对象级注释:关键对象的时空范围;
  • 细粒度定位:标注"是什么""在哪里""什么时候";
  • 推理依赖可视化:清晰展示必需视觉信息。
4

章节 04

核心发现:时空提示的显著效果

核心发现:时空提示的显著效果

"何时"提示的价值

  • 减少噪声干扰,聚焦关键时间段;
  • 提高计算效率,优先处理关键帧;
  • 改善时序推理,建立正确时间关系。

"何处"提示的价值

  • 聚焦相关空间区域;
  • 理解对象间相对位置与交互;
  • 处理遮挡和移动的定位线索。

协同效应

同时提供时空提示的性能提升大于单独提示叠加,说明时空信息相互依赖。

5

章节 05

模型性能差距:与人类的对比

模型性能差距:与人类的对比

多步推理挑战

  • 信息整合困难:难以结合分散的时空信息;
  • 因果推理薄弱:理解动作间因果与时序依赖;
  • 长程依赖问题:时间跨度增加导致信息连贯性下降。

细粒度定位局限

  • 边界模糊:难以精确定位对象的时空边界;
  • 小对象遗漏:易忽略占比小的关键对象;
  • 动态跟踪困难:跟踪移动对象的时空轨迹。
6

章节 06

应用场景与训练启示

应用场景与训练启示

智能体系统

  • 聚焦任务相关区域,指导合适时间执行动作,提升动态适应能力。

视频问答系统

  • 交互式提示:用户点击/拖拽提供空间提示,系统请求时间范围,多轮细化定位。

模型训练策略

  • 显式建模时空注意力机制;
  • 预训练引入时空定位任务;
  • 设计可利用外部提示的灵活架构。
7

章节 07

数据集特点与未来方向

数据集特点与未来方向

数据集特点

  • 规模与多样性:覆盖多种日常场景;
  • 难度分级:支持渐进式评估;
  • 多模态输出:文本答案、时空掩码、推理轨迹;
  • 开源可用:GitHub开放获取。

局限性与未来方向

  • 局限:场景覆盖(日常为主,专业领域少)、注释成本高、提示自动化不足;
  • 未来:自动提示生成、扩展专业领域/长视频、结合音频信息、实时视频流推理。
8

章节 08

结语:Minerva-Ego的意义

结语:Minerva-Ego的意义

Minerva-Ego为第一人称视频理解提供全面评估框架,不仅关注最终答案,更重视推理过程质量。核心发现(时空提示提升性能)为模型设计指明方向,未来将作为基础设施推动具身智能与第一人称视角应用的进步。