章节 01
DOSE:无需训练即可筛选高质量多模态数据的创新方法【主楼导读】
DOSE提出一种利用现成预训练模型(无需针对目标数据微调)筛选多模态训练数据的新方法。通过构建联合质量-对齐分布并采用自适应加权采样,在保持长尾多样性的同时选择信息丰富样本,使模型在VQA和数学基准测试上达到或超越全量数据训练的效果。
正文
DOSE提出了一种利用现成预训练模型(无需针对目标数据微调)来筛选多模态训练数据的新方法。通过构建联合质量-对齐分布并采用自适应加权采样,该方法在保持长尾多样性的同时选择信息丰富的样本,使模型在VQA和数学基准测试上达到或超越使用全量数据训练的效果。
章节 01
DOSE提出一种利用现成预训练模型(无需针对目标数据微调)筛选多模态训练数据的新方法。通过构建联合质量-对齐分布并采用自适应加权采样,在保持长尾多样性的同时选择信息丰富样本,使模型在VQA和数学基准测试上达到或超越全量数据训练的效果。
章节 02
在视觉-语言模型(VLMs)训练中,高质量多样化多模态数据至关重要,但现有数据集存在噪声、冗余、图文对齐不佳等问题,降低学习效率和性能。传统数据过滤方法需额外训练过滤模型,消耗大量资源,形成'用训练筛选数据'的悖论。
章节 03
DOSE(Data Selection via Off-the-shelf Models)的核心设想是利用未见过目标数据的现成预训练模型,为更大多模态模型筛选样本。其洞察在于:现成预训练模型即使未微调,也能有效评估文本质量和图文对齐程度,打破'数据筛选需专门训练模型'的传统认知。
章节 04
章节 05
在VQA和数学推理基准测试中验证DOSE有效性:
章节 06
DOSE为数据筛选领域带来新思路:证明预训练模型知识可更充分利用,'少即是多'(精选数据效果优于海量原始数据)。实际应用意义:降低数据准备成本,提升模型训练效率,促进数据多样性以增强鲁棒性。
章节 07
DOSE是数据筛选技术的重要进步,利用现成预训练模型能力,无需额外训练即可筛选高质量多模态数据,提升多样性且效果优异。未来可扩展至更多模态组合和复杂任务场景,助力多模态大语言模型发展。