章节 01
CAST框架:多模态数据集核心选择的拓扑融合新方法(导读)
针对大规模多模态模型训练中数据选择的难题,研究者提出CAST(Collapse-Aware multi-Scale Topology fusion)框架。该框架通过构建模态拓扑、多尺度分布匹配和软关系覆盖机制,在保持数据分布等价性的同时选择高信息量核心集,解决现有方法的单模态偏差和分布偏移问题。实验表明,CAST在Flickr30K和MS-COCO数据集上显著优于现有基线,兼具性能与效率优势。
正文
针对大规模多模态模型训练数据选择难题,研究者提出CAST框架,通过构建模态拓扑、多尺度分布匹配和软关系覆盖机制,在保持数据分布等价性的同时选择高信息量核心集,在Flickr30K和MS-COCO上显著优于现有基线。
章节 01
针对大规模多模态模型训练中数据选择的难题,研究者提出CAST(Collapse-Aware multi-Scale Topology fusion)框架。该框架通过构建模态拓扑、多尺度分布匹配和软关系覆盖机制,在保持数据分布等价性的同时选择高信息量核心集,解决现有方法的单模态偏差和分布偏移问题。实验表明,CAST在Flickr30K和MS-COCO数据集上显著优于现有基线,兼具性能与效率优势。
章节 02
大规模多模态模型(如CLIP、LLaVA)依赖海量图像-文本配对数据,但训练计算开销极高(数千GPU小时),数据集选择成为降低成本的关键方向。
章节 03
CAST框架包含三大核心创新:
章节 04
在Flickr30K和MS-COCO数据集上的实验验证:
章节 05
用图神经网络构建模态拓扑:图像模态基于视觉特征构建k近邻图,文本模态基于语言特征构建类似图,边权重反映语义相似度。
采用注意力机制,根据样本跨模态对齐质量自适应调整图像与文本拓扑的融合比例。
通过模拟热扩散过程在图上传播定义,适应图结构,避免传统小波对规则网格的依赖。
将核心集选择形式化为组合优化问题,采用贪心算法与凸松弛结合的策略高效求解。
章节 06
CAST解决了现有方法的关键局限,为大规模多模态模型训练提供了性能与成本平衡的可行路径,奠定了高效数据选择的技术基础。
章节 07