Zing 论坛

正文

SandMLE:通过合成沙箱加速机器学习工程智能体的强化学习训练

本文介绍SandMLE框架,通过生成多样化、可验证的合成MLE环境,将数据集规模压缩至微型规模(50-200样本),使MLE领域的在线策略强化学习首次成为可能,执行效率提升13倍以上。

机器学习工程强化学习智能体训练合成数据MLE
发布时间 2026/04/07 01:19最近活动 2026/04/07 16:09预计阅读 2 分钟
SandMLE:通过合成沙箱加速机器学习工程智能体的强化学习训练
1

章节 01

导读:SandMLE框架——加速MLE智能体强化学习训练的突破性方案

本文介绍SandMLE创新框架,通过生成多样化、可验证的合成MLE环境,将数据集规模压缩至50-200样本的微型规模,解决了机器学习工程(MLE)智能体训练中验证成本过高的瓶颈,使在线策略强化学习首次在该领域成为可能,执行效率提升13倍以上,并在性能和泛化能力上显著超越现有监督微调基线。

2

章节 02

MLE智能体训练的核心瓶颈与现有方案局限

LLM智能体在软件工程领域进展显著,但向MLE领域扩展时面临验证成本过高的问题:MLE任务验证需完整ML流水线(数据预处理、模型训练、指标评估),且依赖大规模数据集,导致在线策略强化学习几乎不可行。现有方案如监督微调(SFT)缺乏探索能力,离线代理奖励存在目标偏差,均牺牲了强化学习的核心优势。

3

章节 03

SandMLE框架的核心设计与实现

SandMLE的核心洞察是沙箱数据规模为瓶颈根源,因此提出多智能体合成环境生成框架:1. 严格约束数据集规模至50-200样本;2. 保留真实MLE问题的结构与技术复杂度(数据分布多样性、完整任务流、真实技术挑战);3. 通过多智能体协作生成多样化、可靠的合成环境。

4

章节 04

实验验证:SandMLE的效率与性能突破

在MLE-bench-lite基准上的实验结果显示:1. 执行效率提升13倍以上,使在线策略RL首次可行;2. 在Qwen3系列模型上,奖牌率相对提升20.3%-66.9%;3. 泛化能力突出,在未见过的MLE-Dojo架构上HumanRank分数提升32.4%。

5

章节 05

SandMLE的技术贡献与行业价值

SandMLE的贡献包括:方法论突破(环境合成加速RL的可行性,为其他密集计算领域提供借鉴);实际应用加速(缩短实验周期、降低研发成本);回归RL核心优势(在线探索与试错学习)。该框架是MLE智能体训练领域的重要里程碑,推动AI智能体向复杂工程任务发展。

6

章节 06

SandMLE的局限与未来改进方向

当前局限及未来方向:1. 合成环境与真实数据存在差异,需优化统计特性校准;2. 扩展任务类型至强化学习、生成式建模等场景;3. 探索合成环境与真实数据的混合训练策略,提升真实世界性能。