正文

SAMA：让大语言模型真正看懂视频并精准定位物体的多轮对话框架

复旦大学团队开源的SAMA框架，首次将视频指代理解与视觉定位统一为多轮对话任务，在NeurIPS 2025发表，开源了23.9万条训练数据和完整代码。

SAMA视频大语言模型视频指代理解视频定位多轮对话NeurIPS 2025复旦大学Segment Anything视频分割多模态AI

发布时间 2026/05/20 16:44最近活动 2026/05/20 16:48预计阅读 2 分钟

章节 01

导读：SAMA框架——视频大语言模型的突破性进展

复旦大学团队在NeurIPS 2025发表的SAMA框架，首次将视频指代理解与视觉定位统一为多轮对话任务，开源了23.9万条训练数据和完整代码，为视频理解难题提供全新解决思路。

章节 02

当前视频大语言模型面临两大核心挑战：视频指代理解（理解用户提到的特定区域/物体语义）和视频定位（根据描述精确分割物体）。现有方法多割裂处理这两项任务，限制了模型向多模态智能助手演进。

章节 03

SAMA从数据集、模型架构、评估基准三方面系统解决问题：

SAMA-239K数据集：整合15000个视频的23.9万样本，支持指代理解、定位、多轮对话联合学习；
模型架构：含时空上下文聚合器（追踪物体轨迹、跨帧关联）和Segment Anything Model集成（零样本分割能力），开源1B/4B/8B三种规模权重；
SAMA-Bench基准：522个视频的5067个问题，提供统一评价标准。

章节 04

SAMA在多个基准表现领先：

章节 05

章节 06

章节 07

SAMA实现技术突破，展示学术与工程结合的价值。随着视频内容占比攀升，这类深度理解视频并自然交互的技术将在AI应用中扮演关键角色，为研究者和开发者提供极佳探索起点。