正文

OST：基于增量优化效用的多模态模型数据选择新框架

本文介绍One-Step-Train (OST)框架，将数据选择重新定义为增量优化效用排序问题。通过在轻量级代理模型上模拟单步更新来估计每个样本的边际效用，OST在减少43%训练成本的同时，性能超越LLM-as-a-Judge基线1.8分。

数据选择多模态模型增量优化合成数据LLM-as-a-Judge训练效率边际效用

发布时间 2026/05/08 17:28最近活动 2026/05/11 11:26预计阅读 2 分钟

章节 01

导读：OST框架——多模态模型数据选择的优化新方案

本文介绍One-Step-Train (OST)框架，将数据选择重新定义为增量优化效用排序问题。通过在轻量级代理模型上模拟单步更新估计每个样本的边际效用，OST在减少43%训练成本的同时，性能超越LLM-as-a-Judge基线1.8分，为多模态模型训练提供高效、可解释的新方案。

章节 02

背景：合成数据的困境与现有方法的局限

合成数据的两难困境

大规模多模态模型（LMMs）依赖高质量训练数据，但合成数据存在噪声和劣质样本，浪费资源且可能导致性能下降。传统启发式规则或人工筛选成本高、难捕捉深层价值；LLM-as-a-Judge方法计算成本极高且缺乏可解释性。

章节 03

方法：OST框架的核心思想与技术实现

核心思想：优化视角下的数据价值

OST将数据选择视为增量优化效用排序问题，直接估计样本对模型训练的实际贡献，优势包括直接优化目标、计算高效、可解释性强。

技术实现：单步模拟与效用估计

代理模型选择：用轻量级模型反映数据对训练的基本影响；
单步更新模拟：对每个样本执行单步梯度更新，测量性能变化得边际效用；
效用排序与选择：按边际效用排序，选最高子集训练。

章节 04

实验证据：OST框架的性能与效率优势

实验结果：帕累托最优的效率

成本与性能优化：选前50%数据，训练成本降43%、时间减17%，性能超LLM-as-a-Judge基线1.8分；
固定预算表现：前20%数据，超LLM-as-a-Judge5.6分，超DEITA和Full-SFT基线；
噪声识别：有效消除有毒样本的负面迁移，尤其适用于复杂推理任务。

章节 05

结论：优化视角下的数据价值评估原则

深层洞察：为什么优化视角更有效

数据价值应基于对优化过程的贡献，而非表面语义。高价值样本梯度方向与最优方向一致，低价值样本则冲突。OST通过单步模拟估计梯度贡献，比LLM-as-a-Judge更准确。

总结

OST重新定义数据选择为增量优化效用问题，提供高效可解释方案，为数据工程提供新思考角度。

章节 06

应用与展望：OST框架的实际价值与未来方向

实际应用与推广价值

OST适用于合成数据过滤、课程学习、主动学习、多任务学习等场景，可解释性指导数据收集策略。

展望

随着模型规模增长，数据选择重要性凸显，OST代表的优化驱动方法有望成为数据工程标准范式，助力有限预算下最大化训练效益。