Zing 论坛

正文

VidGround:视觉 grounded 后训练的数据筛选之道

研究发现主流视频理解基准中 40-60% 的问题仅凭文本线索即可回答,VidGround 通过筛选真正需要视觉 grounding 的数据进行后训练,仅用 69% 数据即可提升模型性能 6.2 分。

视觉语言模型视频理解后训练数据筛选视觉 grounding强化学习数据质量
发布时间 2026/04/07 03:22最近活动 2026/04/08 11:18预计阅读 2 分钟
VidGround:视觉 grounded 后训练的数据筛选之道
1

章节 01

【导读】VidGround:聚焦视觉Grounding的数据筛选方案核心要点

视觉语言模型(VLMs)的视频理解能力长期落后于文本推理能力,研究发现主流视频理解基准及后训练数据中40-60%的问题仅凭文本线索即可解答,导致模型难以真正学习视频理解。VidGround通过筛选真正需要视觉Grounding的数据进行后训练,在仅使用69%数据的情况下,结合强化学习后训练算法使模型性能提升6.2个百分点,验证了数据质量优先于数量的重要性。

2

章节 02

背景:视频理解基准与后训练数据的隐性偏差

当前VLMs评估体系存在严重隐性偏差:主流长视频理解基准中40%-60%的问题属于"文本可解"类型,无需观看视频即可回答。这不仅导致模型能力被高估,还误导优化方向。更关键的是,这种偏差在广泛使用的后训练数据集中同样普遍,使得模型学习依赖文本线索而非视频理解能力,成为制约VLMs视频理解提升的核心瓶颈。

3

章节 03

VidGround核心策略:筛选视觉Grounding数据

VidGround的核心思想是剔除后训练数据中仅凭文本可解的样本,仅保留需视觉Grounding的问题。实施分为两步:1)通过自动化或人工方式识别数据集中"视觉Grounding"(依赖视频内容)与"文本可解"样本;2)仅使用前者进行后训练。该策略简洁高效,无需复杂算法或额外资源。

4

章节 04

实验证据:数据效率与性能的双重提升

实验结果显示,VidGround与强化学习后训练算法结合时,模型性能提升6.2个百分点,且仅使用69.1%的原始数据。此外,使用筛选后数据的简单后训练效果优于完整数据的多种复杂后训练技术,验证了数据质量比数量更重要的假设,为资源受限场景提供实用路径。

5

章节 05

对VLM发展的启示

VidGround的成果带来三点启示:1)评估基准需更严谨,确保测试真正的视觉理解能力;2)数据策展应成为训练流程标准,优先筛选高质量数据而非追求规模;3)视频理解提升需从数据源头抓起,扩展到细粒度时序推理任务。

7

章节 07

结语:数据质量是视频理解的关键

VidGround揭示了数据质量(尤其是视觉Grounding程度)对模型真实能力的决定性作用。通过简单数据筛选,不仅提升性能,更确保模型学到真正的视频理解能力而非文本捷径。在追求大模型的同时,不应忽视数据质量基础——正如VidGround所示,"少即是多"。