章节 01
【导读】VidGround:聚焦视觉Grounding的数据筛选方案核心要点
视觉语言模型(VLMs)的视频理解能力长期落后于文本推理能力,研究发现主流视频理解基准及后训练数据中40-60%的问题仅凭文本线索即可解答,导致模型难以真正学习视频理解。VidGround通过筛选真正需要视觉Grounding的数据进行后训练,在仅使用69%数据的情况下,结合强化学习后训练算法使模型性能提升6.2个百分点,验证了数据质量优先于数量的重要性。
正文
研究发现主流视频理解基准中 40-60% 的问题仅凭文本线索即可回答,VidGround 通过筛选真正需要视觉 grounding 的数据进行后训练,仅用 69% 数据即可提升模型性能 6.2 分。
章节 01
视觉语言模型(VLMs)的视频理解能力长期落后于文本推理能力,研究发现主流视频理解基准及后训练数据中40-60%的问题仅凭文本线索即可解答,导致模型难以真正学习视频理解。VidGround通过筛选真正需要视觉Grounding的数据进行后训练,在仅使用69%数据的情况下,结合强化学习后训练算法使模型性能提升6.2个百分点,验证了数据质量优先于数量的重要性。
章节 02
当前VLMs评估体系存在严重隐性偏差:主流长视频理解基准中40%-60%的问题属于"文本可解"类型,无需观看视频即可回答。这不仅导致模型能力被高估,还误导优化方向。更关键的是,这种偏差在广泛使用的后训练数据集中同样普遍,使得模型学习依赖文本线索而非视频理解能力,成为制约VLMs视频理解提升的核心瓶颈。
章节 03
VidGround的核心思想是剔除后训练数据中仅凭文本可解的样本,仅保留需视觉Grounding的问题。实施分为两步:1)通过自动化或人工方式识别数据集中"视觉Grounding"(依赖视频内容)与"文本可解"样本;2)仅使用前者进行后训练。该策略简洁高效,无需复杂算法或额外资源。
章节 04
实验结果显示,VidGround与强化学习后训练算法结合时,模型性能提升6.2个百分点,且仅使用69.1%的原始数据。此外,使用筛选后数据的简单后训练效果优于完整数据的多种复杂后训练技术,验证了数据质量比数量更重要的假设,为资源受限场景提供实用路径。
章节 05
VidGround的成果带来三点启示:1)评估基准需更严谨,确保测试真正的视觉理解能力;2)数据策展应成为训练流程标准,优先筛选高质量数据而非追求规模;3)视频理解提升需从数据源头抓起,扩展到细粒度时序推理任务。
章节 06
章节 07
VidGround揭示了数据质量(尤其是视觉Grounding程度)对模型真实能力的决定性作用。通过简单数据筛选,不仅提升性能,更确保模型学到真正的视频理解能力而非文本捷径。在追求大模型的同时,不应忽视数据质量基础——正如VidGround所示,"少即是多"。