Zing 论坛

正文

Reinforced Agent:工具调用智能体的推理时反馈机制

Reinforced Agent通过在执行循环中引入专门的审查智能体,在工具调用执行前评估临时调用,实现从事后恢复到主动评估的范式转变,并引入Helpfulness-Harmfulness指标量化审查的权衡。

工具调用智能体架构推理时反馈多智能体系统Helpfulness-HarmfulnessBFCL审查机制
发布时间 2026/04/30 06:09最近活动 2026/05/01 10:33预计阅读 3 分钟
Reinforced Agent:工具调用智能体的推理时反馈机制
1

章节 01

导读 / 主楼:Reinforced Agent:工具调用智能体的推理时反馈机制

Reinforced Agent通过在执行循环中引入专门的审查智能体,在工具调用执行前评估临时调用,实现从事后恢复到主动评估的范式转变,并引入Helpfulness-Harmfulness指标量化审查的权衡。

2

章节 02

工具调用智能体的评估困境

工具调用智能体(Tool-calling agents)是现代AI系统的重要组成部分,它们能够调用外部API、查询数据库、执行代码等,极大地扩展了大语言模型的能力边界。评估这类智能体通常关注三个维度:

工具选择准确性

智能体是否选择了正确的工具来完成任务?例如,面对"查询北京明天的天气"这一请求,智能体应该调用天气API而非翻译工具。

参数准确性

工具调用的参数是否正确?继续天气查询的例子,智能体需要提供正确的城市名称("北京"而非"Beijing")和日期("明天"对应的实际日期)。

范围识别能力

智能体是否能够识别请求是否超出了其工具集的能力范围?当用户请求无法通过现有工具完成时,智能体应该明确告知而非盲目尝试。

3

章节 03

事后评估的根本局限

然而,当前对LLM智能体轨迹的评估本质上是**事后(post-hoc)**的。评估过程与活跃的执行循环脱节,只能在智能体完成整个执行流程后才能识别错误。这种模式的局限显而易见:

  • 无法实时纠正:错误被识别时,不当操作可能已经执行,造成的后果难以挽回
  • 修复成本高昂:发现的问题通常需要通过提示词调优或重新训练来解决,周期长、成本高
  • 被动响应:系统只能在错误发生后做出反应,无法主动预防
4

章节 04

Reinforced Agent:推理时反馈新范式

针对上述问题,研究团队提出了Reinforced Agent架构,将评估移入执行循环的推理时阶段,实现从事后恢复到主动评估与错误缓解的范式转变。

5

章节 05

核心架构:执行-审查分离

该架构建立了执行智能体与审查智能体之间的明确职责分离:

主执行智能体(Primary Execution Agent)

负责实际的任务执行,包括理解用户意图、选择适当工具、构造调用参数、处理返回结果等。这是传统智能体的核心功能。

次审查智能体(Secondary Reviewer Agent)

专门负责在工具调用执行前评估临时调用(provisional tool calls)。审查智能体分析拟议的工具选择、参数设置和执行时机,判断其合理性,并在必要时提出修改建议。

6

章节 06

工作流程

典型的执行流程如下:

  1. 用户提出请求
  2. 执行智能体生成临时工具调用方案
  3. 审查智能体评估该方案
  4. 如果审查通过,执行工具调用;如果不通过,返回修改建议
  5. 执行智能体根据反馈调整方案(如有需要)
  6. 重复3-5直至方案通过或达到最大迭代次数
  7. 执行最终方案并返回结果给用户

这种设计将"三思而后行"的原则编码进系统架构——在执行不可逆操作前,先经过独立的审查环节。

7

章节 07

Helpfulness-Harmfulness:量化审查权衡

多智能体系统的一个根本挑战是:审查者可能在纠正错误的同时引入新的错误。为了系统衡量这一权衡,研究团队提出了Helpfulness-Harmfulness指标对。

8

章节 08

Helpfulness(有益性)

衡量审查反馈纠正基础智能体错误的能力:

Helpfulness = 被反馈纠正的基础智能体错误数 / 基础智能体总错误数 × 100%

高Helpfulness意味着审查者能够有效识别并纠正执行智能体的错误决策。