Zing 论坛

正文

SAMA:让大语言模型真正看懂视频并精准定位物体的多轮对话框架

复旦大学团队开源的SAMA框架,首次将视频指代理解与视觉定位统一为多轮对话任务,在NeurIPS 2025发表,开源了23.9万条训练数据和完整代码。

SAMA视频大语言模型视频指代理解视频定位多轮对话NeurIPS 2025复旦大学Segment Anything视频分割多模态AI
发布时间 2026/05/20 16:44最近活动 2026/05/20 16:48预计阅读 2 分钟
SAMA:让大语言模型真正看懂视频并精准定位物体的多轮对话框架
1

章节 01

导读:SAMA框架——视频大语言模型的突破性进展

复旦大学团队在NeurIPS 2025发表的SAMA框架,首次将视频指代理解与视觉定位统一为多轮对话任务,开源了23.9万条训练数据和完整代码,为视频理解难题提供全新解决思路。

2

章节 02

视频理解的核心挑战

当前视频大语言模型面临两大核心挑战:视频指代理解(理解用户提到的特定区域/物体语义)和视频定位(根据描述精确分割物体)。现有方法多割裂处理这两项任务,限制了模型向多模态智能助手演进。

3

章节 03

SAMA的三位一体创新方案

SAMA从数据集、模型架构、评估基准三方面系统解决问题:

  1. SAMA-239K数据集:整合15000个视频的23.9万样本,支持指代理解、定位、多轮对话联合学习;
  2. 模型架构:含时空上下文聚合器(追踪物体轨迹、跨帧关联)和Segment Anything Model集成(零样本分割能力),开源1B/4B/8B三种规模权重;
  3. SAMA-Bench基准:522个视频的5067个问题,提供统一评价标准。
4

章节 04

实验结果:多项SOTA与强泛化能力

SAMA在多个基准表现领先:

  • SAMA-Bench上显著优于现有方法;
  • 通用视频定位基准(如Ref-DAVIS、Ref-Youtube-VOS)达到新SOTA;
  • 标准视觉理解基准保持竞争力,且在未见过的视频类型上泛化稳健。
5

章节 05

技术实现细节

  • 环境配置:基于PyTorch 2.3.1、CUDA 12.1和mmcv;
  • 训练策略:8卡A100(80G)分布式训练,支持三种模型规模,提供权重转换脚本;
  • 推理支持:针对图像/视频分割任务提供完整评估脚本,降低复现门槛。
6

章节 06

应用前景与意义

  • 学术:统一视频指代理解与定位领域,催生跨方向研究;
  • 工业:多轮对话能力可应用于智能监控、视频审核、教育辅助等场景;
  • 开源生态:完整数据、代码、模型开源,加速领域发展。
7

章节 07

结语:视频大模型实用化的重要一步

SAMA实现技术突破,展示学术与工程结合的价值。随着视频内容占比攀升,这类深度理解视频并自然交互的技术将在AI应用中扮演关键角色,为研究者和开发者提供极佳探索起点。