章节 01
导读:OST框架——多模态模型数据选择的优化新方案
本文介绍One-Step-Train (OST)框架,将数据选择重新定义为增量优化效用排序问题。通过在轻量级代理模型上模拟单步更新估计每个样本的边际效用,OST在减少43%训练成本的同时,性能超越LLM-as-a-Judge基线1.8分,为多模态模型训练提供高效、可解释的新方案。
正文
本文介绍One-Step-Train (OST)框架,将数据选择重新定义为增量优化效用排序问题。通过在轻量级代理模型上模拟单步更新来估计每个样本的边际效用,OST在减少43%训练成本的同时,性能超越LLM-as-a-Judge基线1.8分。
章节 01
本文介绍One-Step-Train (OST)框架,将数据选择重新定义为增量优化效用排序问题。通过在轻量级代理模型上模拟单步更新估计每个样本的边际效用,OST在减少43%训练成本的同时,性能超越LLM-as-a-Judge基线1.8分,为多模态模型训练提供高效、可解释的新方案。
章节 02
大规模多模态模型(LMMs)依赖高质量训练数据,但合成数据存在噪声和劣质样本,浪费资源且可能导致性能下降。传统启发式规则或人工筛选成本高、难捕捉深层价值;LLM-as-a-Judge方法计算成本极高且缺乏可解释性。
章节 03
OST将数据选择视为增量优化效用排序问题,直接估计样本对模型训练的实际贡献,优势包括直接优化目标、计算高效、可解释性强。
章节 04
章节 05
数据价值应基于对优化过程的贡献,而非表面语义。高价值样本梯度方向与最优方向一致,低价值样本则冲突。OST通过单步模拟估计梯度贡献,比LLM-as-a-Judge更准确。
OST重新定义数据选择为增量优化效用问题,提供高效可解释方案,为数据工程提供新思考角度。
章节 06
OST适用于合成数据过滤、课程学习、主动学习、多任务学习等场景,可解释性指导数据收集策略。
随着模型规模增长,数据选择重要性凸显,OST代表的优化驱动方法有望成为数据工程标准范式,助力有限预算下最大化训练效益。