# SAMA：让大语言模型真正看懂视频并精准定位物体的多轮对话框架

> 复旦大学团队开源的SAMA框架，首次将视频指代理解与视觉定位统一为多轮对话任务，在NeurIPS 2025发表，开源了23.9万条训练数据和完整代码。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-20T08:44:58.000Z
- 最近活动: 2026-05-20T08:48:33.751Z
- 热度: 154.9
- 关键词: SAMA, 视频大语言模型, 视频指代理解, 视频定位, 多轮对话, NeurIPS 2025, 复旦大学, Segment Anything, 视频分割, 多模态AI
- 页面链接: https://www.zingnex.cn/forum/thread/sama-31e482f4
- Canonical: https://www.zingnex.cn/forum/thread/sama-31e482f4
- Markdown 来源: ingested_event

---

# SAMA：让大语言模型真正看懂视频并精准定位物体的多轮对话框架\n\n视频理解一直是人工智能领域最具挑战性的方向之一。与静态图片不同，视频包含复杂的时间维度信息，物体可能在画面中移动、形变、甚至消失再出现。如何让大语言模型不仅能"看懂"视频内容，还能精准指出"哪个物体在做什么"，一直是学术界和工业界共同追求的难题。近日，复旦大学团队在NeurIPS 2025发表的SAMA项目，为这一难题提供了全新的解决思路。\n\n## 为什么视频理解这么难？\n\n当前的视频大语言模型（Video LMMs）在处理视频时面临两个核心挑战：一是**视频指代理解**（Video Referring Understanding），即理解用户提到的特定区域或物体的语义；二是**视频定位**（Video Grounding），即根据自然语言描述在视频中精确分割出对应物体。\n\n现有的方法大多将这两个任务割裂处理：有的模型擅长理解"左边那只狗"指的是什么，有的模型擅长把"奔跑中的猫"从背景中抠出来，但很少有模型能同时完成这两项任务，更不用说在多轮对话中保持连贯的时空理解了。这种割裂限制了视频大模型向真正的多模态智能助手演进。\n\n## SAMA的核心创新：三位一体的解决方案\n\nSAMA团队的突破在于提出了一个统一的框架，从数据集、模型架构到评估基准三个层面系统性地解决了上述问题。\n\n### SAMA-239K：首个大规模统一视频指令数据集\n\n团队构建了包含**23.9万条样本**的训练数据集SAMA-239K，整合了15,000个精选视频。这个数据集的特别之处在于，它同时支持三种核心能力的联合学习：\n\n- **视频指代理解**：理解视频中特定区域的语义\n- **视频定位**：根据描述精确分割物体\n- **多轮视频对话**：在持续交互中保持时空一致性\n\n数据来源于LVVIS、Ref-Youtube-VOS、MeViS等多个权威视频分割数据集，并经过精心重组和标注，确保每个样本都包含高质量的时空对应关系。\n\n### SAMA模型架构：时空上下文聚合器\n\nSAMA模型的设计体现了对视频特性的深刻理解。它包含两个核心组件：\n\n**时空上下文聚合器**（Spatio-Temporal Context Aggregator）：这个模块负责在时间和空间两个维度上整合视频信息。不同于简单的帧级特征提取，它能够追踪物体在视频序列中的运动轨迹，建立跨帧的语义关联。\n\n**Segment Anything Model集成**：SAMA巧妙地整合了Meta的SAM模型，利用其强大的零样本分割能力作为定位基础。这种设计让模型既能进行语义理解，又能输出精确的分割掩码，实现了理解与定位的真正统一。\n\n团队开源了三个规模的模型权重：SAMA-1B、SAMA-4B和SAMA-8B，分别适用于不同的计算资源场景。从实验结果看，即使是1B参数的版本，在多个基准测试上也展现出了强劲的性能。\n\n### SAMA-Bench：全面的评估基准\n\n为了客观衡量模型在多轮、时空指代理解和定位对话中的综合能力，团队还构建了SAMA-Bench评估基准。它包含522个视频中的5,067个问题，涵盖了各种复杂的交互场景。这个基准的发布，为视频大模型的研究提供了统一的评价标准。\n\n## 实验结果：多项SOTA与强泛化能力\n\nSAMA在多个权威基准上取得了领先成绩：\n\n- 在SAMA-Bench上，SAMA显著优于现有方法\n- 在通用视频定位基准（如Ref-DAVIS、Ref-Youtube-VOS）上达到新的SOTA\n- 在标准视觉理解基准上保持高度竞争力\n\n更重要的是，SAMA展现出了良好的泛化能力。由于训练数据的多样性和模型架构的通用性，它在未见过的视频类型上依然表现稳健，这对于实际应用至关重要。\n\n## 技术实现细节\n\n从开源代码可以看出，SAMA的训练流程经过了精心设计：\n\n**环境配置**：基于PyTorch 2.3.1和CUDA 12.1，使用mmcv进行视频处理。这种选择保证了训练效率和推理速度的兼顾。\n\n**训练策略**：采用8卡A100（80G）进行分布式训练，支持1B、4B、8B三种模型规模。训练完成后提供了模型权重转换脚本，方便下游使用。\n\n**推理支持**：针对图像分割（RefCOCO系列）和视频分割（MeViS、Ref-DAVIS等）任务都提供了完整的评估脚本，降低了复现门槛。\n\n## 应用前景与意义\n\nSAMA的发布对视频AI领域具有重要意义：\n\n**学术研究**：提供了一个统一的研究框架，将视频指代理解和定位这两个长期分离的领域整合起来，有望催生更多跨方向的研究成果。\n\n**工业应用**：多轮视频对话能力可广泛应用于智能监控分析、视频内容审核、教育辅助、体育战术分析等场景。例如，用户可以直接问"刚才那个穿红衣服的人从哪个方向来"，系统不仅能理解问题，还能在视频中精确定位并回答。\n\n**开源生态**：完整的数据、代码和模型权重开源，为社区提供了宝贵的基础资源，有助于加速整个领域的发展。\n\n## 结语\n\nSAMA代表了视频大模型向真正实用化迈出的重要一步。它不仅在技术上实现了突破，更重要的是展示了如何将学术研究与工程实践有机结合。随着视频内容在互联网中的占比持续攀升，像SAMA这样能够深度理解视频并与人自然交互的技术，必将在未来的人工智能应用中扮演越来越重要的角色。\n\n对于研究者和开发者来说，SAMA提供了一个极佳的起点——无论是想深入视频理解的前沿研究，还是希望构建下一代视频智能应用，都可以从这个项目开始探索。
