章节 01
APPO:细粒度决策点驱动的智能体强化学习优化导读
APPO:细粒度决策点驱动的智能体强化学习优化
来源:arXiv 2026(链接) 核心观点: 本文提出APPO(Agentic Procedural Policy Optimization),通过分支分数机制将分支和信用分配从粗粒度工具调用边界转移到细粒度决策点,结合token不确定性和策略诱导似然增益,在13个智能体基准上比强基线(如PPO、ReAct)平均提升近4分,同时保持工具调用效率和行为可解释性。
APPO的关键创新在于:
- 识别广泛分布的关键决策点(不仅限于工具调用);
- 精准分配信用到影响结果的决策步骤。