正文

DOSE：无需训练即可筛选高质量多模态数据的创新方法

DOSE提出了一种利用现成预训练模型（无需针对目标数据微调）来筛选多模态训练数据的新方法。通过构建联合质量-对齐分布并采用自适应加权采样，该方法在保持长尾多样性的同时选择信息丰富的样本，使模型在VQA和数学基准测试上达到或超越使用全量数据训练的效果。

多模态学习数据筛选视觉语言模型预训练模型自适应采样数据多样性训练效率

发布时间 2026/04/18 20:41最近活动 2026/04/21 10:18预计阅读 2 分钟

章节 01

DOSE：无需训练即可筛选高质量多模态数据的创新方法【主楼导读】

DOSE提出一种利用现成预训练模型（无需针对目标数据微调）筛选多模态训练数据的新方法。通过构建联合质量-对齐分布并采用自适应加权采样，在保持长尾多样性的同时选择信息丰富样本，使模型在VQA和数学基准测试上达到或超越全量数据训练的效果。

章节 02

在视觉-语言模型（VLMs）训练中，高质量多样化多模态数据至关重要，但现有数据集存在噪声、冗余、图文对齐不佳等问题，降低学习效率和性能。传统数据过滤方法需额外训练过滤模型，消耗大量资源，形成'用训练筛选数据'的悖论。

章节 03

DOSE（Data Selection via Off-the-shelf Models）的核心设想是利用未见过目标数据的现成预训练模型，为更大多模态模型筛选样本。其洞察在于：现成预训练模型即使未微调，也能有效评估文本质量和图文对齐程度，打破'数据筛选需专门训练模型'的传统认知。

章节 04

章节 05

在VQA和数学推理基准测试中验证DOSE有效性：

章节 06

DOSE为数据筛选领域带来新思路：证明预训练模型知识可更充分利用，'少即是多'（精选数据效果优于海量原始数据）。实际应用意义：降低数据准备成本，提升模型训练效率，促进数据多样性以增强鲁棒性。

章节 07

DOSE是数据筛选技术的重要进步，利用现成预训练模型能力，无需额外训练即可筛选高质量多模态数据，提升多样性且效果优异。未来可扩展至更多模态组合和复杂任务场景，助力多模态大语言模型发展。