章节 01
导读:SAMA框架——视频大语言模型的突破性进展
复旦大学团队在NeurIPS 2025发表的SAMA框架,首次将视频指代理解与视觉定位统一为多轮对话任务,开源了23.9万条训练数据和完整代码,为视频理解难题提供全新解决思路。
正文
复旦大学团队开源的SAMA框架,首次将视频指代理解与视觉定位统一为多轮对话任务,在NeurIPS 2025发表,开源了23.9万条训练数据和完整代码。
章节 01
复旦大学团队在NeurIPS 2025发表的SAMA框架,首次将视频指代理解与视觉定位统一为多轮对话任务,开源了23.9万条训练数据和完整代码,为视频理解难题提供全新解决思路。
章节 02
当前视频大语言模型面临两大核心挑战:视频指代理解(理解用户提到的特定区域/物体语义)和视频定位(根据描述精确分割物体)。现有方法多割裂处理这两项任务,限制了模型向多模态智能助手演进。
章节 03
SAMA从数据集、模型架构、评估基准三方面系统解决问题:
章节 04
SAMA在多个基准表现领先:
章节 05
章节 06
章节 07
SAMA实现技术突破,展示学术与工程结合的价值。随着视频内容占比攀升,这类深度理解视频并自然交互的技术将在AI应用中扮演关键角色,为研究者和开发者提供极佳探索起点。