正文

SandMLE：通过合成沙箱加速机器学习工程智能体的强化学习训练

本文介绍SandMLE框架，通过生成多样化、可验证的合成MLE环境，将数据集规模压缩至微型规模（50-200样本），使MLE领域的在线策略强化学习首次成为可能，执行效率提升13倍以上。

机器学习工程强化学习智能体训练合成数据MLE

发布时间 2026/04/07 01:19最近活动 2026/04/07 16:09预计阅读 2 分钟

章节 01

导读：SandMLE框架——加速MLE智能体强化学习训练的突破性方案

本文介绍SandMLE创新框架，通过生成多样化、可验证的合成MLE环境，将数据集规模压缩至50-200样本的微型规模，解决了机器学习工程（MLE）智能体训练中验证成本过高的瓶颈，使在线策略强化学习首次在该领域成为可能，执行效率提升13倍以上，并在性能和泛化能力上显著超越现有监督微调基线。

章节 02

LLM智能体在软件工程领域进展显著，但向MLE领域扩展时面临验证成本过高的问题：MLE任务验证需完整ML流水线（数据预处理、模型训练、指标评估），且依赖大规模数据集，导致在线策略强化学习几乎不可行。现有方案如监督微调（SFT）缺乏探索能力，离线代理奖励存在目标偏差，均牺牲了强化学习的核心优势。

章节 03

SandMLE的核心洞察是沙箱数据规模为瓶颈根源，因此提出多智能体合成环境生成框架：1. 严格约束数据集规模至50-200样本；2. 保留真实MLE问题的结构与技术复杂度（数据分布多样性、完整任务流、真实技术挑战）；3. 通过多智能体协作生成多样化、可靠的合成环境。

章节 04

在MLE-bench-lite基准上的实验结果显示：1. 执行效率提升13倍以上，使在线策略RL首次可行；2. 在Qwen3系列模型上，奖牌率相对提升20.3%-66.9%；3. 泛化能力突出，在未见过的MLE-Dojo架构上HumanRank分数提升32.4%。

章节 05

SandMLE的贡献包括：方法论突破（环境合成加速RL的可行性，为其他密集计算领域提供借鉴）；实际应用加速（缩短实验周期、降低研发成本）；回归RL核心优势（在线探索与试错学习）。该框架是MLE智能体训练领域的重要里程碑，推动AI智能体向复杂工程任务发展。

章节 06

当前局限及未来方向：1. 合成环境与真实数据存在差异，需优化统计特性校准；2. 扩展任务类型至强化学习、生成式建模等场景；3. 探索合成环境与真实数据的混合训练策略，提升真实世界性能。