正文

SlotVTG：面向对象的视频时序定位适配器，显著提升跨域泛化能力

本文介绍SlotVTG框架，通过轻量级对象中心适配器解决多模态大语言模型在视频时序定位任务中的跨域泛化难题，无需重新训练整个模型即可实现对象级视觉推理。

视频时序定位多模态大语言模型对象中心学习跨域泛化槽位注意力机器学习计算机视觉

发布时间 2026/03/27 01:59最近活动 2026/03/27 15:18预计阅读 2 分钟

章节 01

导读：SlotVTG框架解决MLLM视频时序定位跨域泛化难题

SlotVTG框架通过轻量级对象中心适配器，解决多模态大语言模型（MLLMs）在视频时序定位（VTG）任务中的跨域泛化难题。该方法无需重新训练整个模型，即可引导MLLMs实现对象级视觉推理，显著提升域外数据的泛化能力。

章节 02

视频时序定位（VTG）是多模态理解核心任务，需根据自然语言描述定位视频中事件的时间边界。多模态大语言模型（MLLMs）在该任务表现出色，但存在粗粒度识别难以支撑细粒度时间理解的问题。传统任务特定微调易让模型记住数据集捷径，导致域外（OOD）数据泛化能力极差，如跨数据集性能大幅下降。

章节 03

对象中心学习通过分解场景为实体级表征，让模型关注具体对象及交互，而非依赖统计相关性预测，为解决跨域泛化提供方向。但现有对象中心方法需从头运行多阶段训练流程，计算资源与时间成本高昂，限制了实际应用普及。

章节 04

章节 05

研究团队在标准VTG基准数据集上的跨域评估结果显示：

章节 06

SlotVTG的技术意义与应用前景包括：

章节 07

SlotVTG仍存在需探索的方向：