Zing 论坛

正文

OST:基于增量优化效用的多模态模型数据选择新框架

本文介绍One-Step-Train (OST)框架,将数据选择重新定义为增量优化效用排序问题。通过在轻量级代理模型上模拟单步更新来估计每个样本的边际效用,OST在减少43%训练成本的同时,性能超越LLM-as-a-Judge基线1.8分。

数据选择多模态模型增量优化合成数据LLM-as-a-Judge训练效率边际效用
发布时间 2026/05/08 17:28最近活动 2026/05/11 11:26预计阅读 2 分钟
OST:基于增量优化效用的多模态模型数据选择新框架
1

章节 01

导读:OST框架——多模态模型数据选择的优化新方案

本文介绍One-Step-Train (OST)框架,将数据选择重新定义为增量优化效用排序问题。通过在轻量级代理模型上模拟单步更新估计每个样本的边际效用,OST在减少43%训练成本的同时,性能超越LLM-as-a-Judge基线1.8分,为多模态模型训练提供高效、可解释的新方案。

2

章节 02

背景:合成数据的困境与现有方法的局限

合成数据的两难困境

大规模多模态模型(LMMs)依赖高质量训练数据,但合成数据存在噪声和劣质样本,浪费资源且可能导致性能下降。传统启发式规则或人工筛选成本高、难捕捉深层价值;LLM-as-a-Judge方法计算成本极高且缺乏可解释性。

3

章节 03

方法:OST框架的核心思想与技术实现

核心思想:优化视角下的数据价值

OST将数据选择视为增量优化效用排序问题,直接估计样本对模型训练的实际贡献,优势包括直接优化目标、计算高效、可解释性强。

技术实现:单步模拟与效用估计

  1. 代理模型选择:用轻量级模型反映数据对训练的基本影响;
  2. 单步更新模拟:对每个样本执行单步梯度更新,测量性能变化得边际效用;
  3. 效用排序与选择:按边际效用排序,选最高子集训练。
4

章节 04

实验证据:OST框架的性能与效率优势

实验结果:帕累托最优的效率

  • 成本与性能优化:选前50%数据,训练成本降43%、时间减17%,性能超LLM-as-a-Judge基线1.8分;
  • 固定预算表现:前20%数据,超LLM-as-a-Judge5.6分,超DEITA和Full-SFT基线;
  • 噪声识别:有效消除有毒样本的负面迁移,尤其适用于复杂推理任务。
5

章节 05

结论:优化视角下的数据价值评估原则

深层洞察:为什么优化视角更有效

数据价值应基于对优化过程的贡献,而非表面语义。高价值样本梯度方向与最优方向一致,低价值样本则冲突。OST通过单步模拟估计梯度贡献,比LLM-as-a-Judge更准确。

总结

OST重新定义数据选择为增量优化效用问题,提供高效可解释方案,为数据工程提供新思考角度。

6

章节 06

应用与展望:OST框架的实际价值与未来方向

实际应用与推广价值

OST适用于合成数据过滤、课程学习、主动学习、多任务学习等场景,可解释性指导数据收集策略。

展望

随着模型规模增长,数据选择重要性凸显,OST代表的优化驱动方法有望成为数据工程标准范式,助力有限预算下最大化训练效益。