Zing 论坛

正文

StraTA:通过策略轨迹抽象提升智能体强化学习的长程决策能力

本文介绍StraTA框架,通过显式轨迹级策略抽象解决智能体长程决策中的探索与信用分配问题,在ALFWorld和WebShop上分别达到93.1%和84.2%的成功率。

智能体强化学习长程决策策略抽象GRPOALFWorldWebShop大语言模型
发布时间 2026/05/08 01:51最近活动 2026/05/08 12:18预计阅读 2 分钟
StraTA:通过策略轨迹抽象提升智能体强化学习的长程决策能力
1

章节 01

导读:StraTA框架提升智能体长程决策能力

本文介绍Strategic Trajectory Abstraction (StraTA)框架,通过显式轨迹级策略抽象解决智能体长程决策中的探索效率低下与信用分配困难问题。其核心思想是将高层规划与低层执行解耦,在ALFWorld(93.1%)、WebShop(84.2%)、SciWorld(63.5%)等基准测试中取得领先性能,为智能体强化学习提供新视角。

2

章节 02

智能体长程决策的核心挑战

大语言模型作为交互式智能体应用广泛,但长程决策任务面临两大挑战:

  1. 探索效率低下:纯反应式方法缺乏高层策略指导,易陷入局部最优,盲目试错;
  2. 信用分配困难:长轨迹失败时难以定位中间步骤问题,学习信号模糊。
3

章节 03

StraTA框架的核心创新与增强机制

核心创新

StraTA的核心是轨迹层面显式策略抽象,将高层规划与低层执行解耦,工作流程分三阶段:

  1. 策略采样:生成抽象策略描述(如“搜索→比较→下单”);
  2. 条件化动作执行:动作生成以策略为条件,确保轨迹连贯;
  3. 联合训练:策略生成与动作执行模块通过GRPO风格rollout联合训练。

增强机制

  • 多样化策略rollout:采样多个候选策略执行,提升优质策略发现概率;
  • 批判性自我判断:模型评估自身策略合理性,加速策略空间优化。
4

章节 04

实验验证:三大基准测试结果

研究团队在三个基准上验证StraTA:

  1. ALFWorld(家庭环境任务):成功率93.1%,显著优于基线;
  2. WebShop(电商交互):成功率84.2%,应对开放性网页任务表现突出;
  3. SciWorld(科学实验):总体得分63.5%,超过部分前沿闭源模型。
5

章节 05

StraTA的技术优势分析

StraTA的技术优势包括:

  1. 层次化结构:分解搜索空间为策略层与执行层,降低复杂度;
  2. 可解释性:显式策略可被人类理解验证,提升安全性与可控性;
  3. 一致性:联合训练确保策略可执行、动作符合策略。
6

章节 06

应用场景与未来研究方向

应用场景

StraTA适用于:自动化网页操作、代码生成与调试、科学研究辅助、教育辅导等。

未来方向

  • 扩展到更长轨迹(数百步以上);
  • 探索层次化策略树等复杂策略表示;
  • 结合外部知识库优化策略。
7

章节 07

结语:显式策略抽象的价值

StraTA证明显式高层规划是提升智能体长程决策效率与性能的关键。通过轨迹级策略抽象,成功解决探索与信用分配难题,在多基准取得领先。其简洁性与通用性有望成为未来智能体系统的基础组件。