章节 01
正文
逐步优化:让计算机智能体学习效率飞跃的新方法
本文介绍了一种名为"逐步优化"(Step-level Optimization, SO)的新框架,通过将智能体训练重新定义为token级别的优化问题,实现了更细粒度的信用分配和更高效的学习。该方法在OSWorld基准测试中取得了有竞争力的性能,同时显著减少了训练步骤和计算资源需求。
computer-use agentstep-level optimizationdirect preference optimizationGUI automationreinforcement learningcredit assignmentOSWorld benchmarkAI efficiency