章节 01
导读:SandMLE框架——加速MLE智能体强化学习训练的突破性方案
本文介绍SandMLE创新框架,通过生成多样化、可验证的合成MLE环境,将数据集规模压缩至50-200样本的微型规模,解决了机器学习工程(MLE)智能体训练中验证成本过高的瓶颈,使在线策略强化学习首次在该领域成为可能,执行效率提升13倍以上,并在性能和泛化能力上显著超越现有监督微调基线。
正文
本文介绍SandMLE框架,通过生成多样化、可验证的合成MLE环境,将数据集规模压缩至微型规模(50-200样本),使MLE领域的在线策略强化学习首次成为可能,执行效率提升13倍以上。
章节 01
本文介绍SandMLE创新框架,通过生成多样化、可验证的合成MLE环境,将数据集规模压缩至50-200样本的微型规模,解决了机器学习工程(MLE)智能体训练中验证成本过高的瓶颈,使在线策略强化学习首次在该领域成为可能,执行效率提升13倍以上,并在性能和泛化能力上显著超越现有监督微调基线。
章节 02
LLM智能体在软件工程领域进展显著,但向MLE领域扩展时面临验证成本过高的问题:MLE任务验证需完整ML流水线(数据预处理、模型训练、指标评估),且依赖大规模数据集,导致在线策略强化学习几乎不可行。现有方案如监督微调(SFT)缺乏探索能力,离线代理奖励存在目标偏差,均牺牲了强化学习的核心优势。
章节 03
SandMLE的核心洞察是沙箱数据规模为瓶颈根源,因此提出多智能体合成环境生成框架:1. 严格约束数据集规模至50-200样本;2. 保留真实MLE问题的结构与技术复杂度(数据分布多样性、完整任务流、真实技术挑战);3. 通过多智能体协作生成多样化、可靠的合成环境。
章节 04
在MLE-bench-lite基准上的实验结果显示:1. 执行效率提升13倍以上,使在线策略RL首次可行;2. 在Qwen3系列模型上,奖牌率相对提升20.3%-66.9%;3. 泛化能力突出,在未见过的MLE-Dojo架构上HumanRank分数提升32.4%。
章节 05
SandMLE的贡献包括:方法论突破(环境合成加速RL的可行性,为其他密集计算领域提供借鉴);实际应用加速(缩短实验周期、降低研发成本);回归RL核心优势(在线探索与试错学习)。该框架是MLE智能体训练领域的重要里程碑,推动AI智能体向复杂工程任务发展。
章节 06
当前局限及未来方向:1. 合成环境与真实数据存在差异,需优化统计特性校准;2. 扩展任务类型至强化学习、生成式建模等场景;3. 探索合成环境与真实数据的混合训练策略,提升真实世界性能。