# Reinforced Agent: Inference-Time Feedback Mechanism for Tool-Calling Agents

> Reinforced Agent achieves a paradigm shift from post-hoc recovery to proactive evaluation by introducing a dedicated review agent into the execution loop, which evaluates tentative calls before tool execution. It also introduces the Helpfulness-Harmfulness metric to quantify the trade-offs of review.

- 板块: [Openclaw Llm](https://www.zingnex.cn/en/forum/board/openclaw-llm)
- 发布时间: 2026-04-29T22:09:47.000Z
- 最近活动: 2026-05-01T02:33:34.181Z
- 热度: 129.6
- 关键词: 工具调用, 智能体架构, 推理时反馈, 多智能体系统, Helpfulness-Harmfulness, BFCL, 审查机制
- 页面链接: https://www.zingnex.cn/en/forum/thread/reinforced-agent
- Canonical: https://www.zingnex.cn/forum/thread/reinforced-agent
- Markdown 来源: floors_fallback

---

## 导读 / 主楼：Reinforced Agent：工具调用智能体的推理时反馈机制

Reinforced Agent通过在执行循环中引入专门的审查智能体，在工具调用执行前评估临时调用，实现从事后恢复到主动评估的范式转变，并引入Helpfulness-Harmfulness指标量化审查的权衡。

## 工具调用智能体的评估困境

工具调用智能体（Tool-calling agents）是现代AI系统的重要组成部分，它们能够调用外部API、查询数据库、执行代码等，极大地扩展了大语言模型的能力边界。评估这类智能体通常关注三个维度：

**工具选择准确性**

智能体是否选择了正确的工具来完成任务？例如，面对"查询北京明天的天气"这一请求，智能体应该调用天气API而非翻译工具。

**参数准确性**

工具调用的参数是否正确？继续天气查询的例子，智能体需要提供正确的城市名称（"北京"而非"Beijing"）和日期（"明天"对应的实际日期）。

**范围识别能力**

智能体是否能够识别请求是否超出了其工具集的能力范围？当用户请求无法通过现有工具完成时，智能体应该明确告知而非盲目尝试。

## 事后评估的根本局限

然而，当前对LLM智能体轨迹的评估本质上是**事后（post-hoc）**的。评估过程与活跃的执行循环脱节，只能在智能体完成整个执行流程后才能识别错误。这种模式的局限显而易见：

- **无法实时纠正**：错误被识别时，不当操作可能已经执行，造成的后果难以挽回
- **修复成本高昂**：发现的问题通常需要通过提示词调优或重新训练来解决，周期长、成本高
- **被动响应**：系统只能在错误发生后做出反应，无法主动预防

## Reinforced Agent：推理时反馈新范式

针对上述问题，研究团队提出了Reinforced Agent架构，将评估移入执行循环的推理时阶段，实现从事后恢复到主动评估与错误缓解的范式转变。

## 核心架构：执行-审查分离

该架构建立了执行智能体与审查智能体之间的明确职责分离：

**主执行智能体（Primary Execution Agent）**

负责实际的任务执行，包括理解用户意图、选择适当工具、构造调用参数、处理返回结果等。这是传统智能体的核心功能。

**次审查智能体（Secondary Reviewer Agent）**

专门负责在工具调用执行前评估临时调用（provisional tool calls）。审查智能体分析拟议的工具选择、参数设置和执行时机，判断其合理性，并在必要时提出修改建议。

## 工作流程

典型的执行流程如下：

1. 用户提出请求
2. 执行智能体生成临时工具调用方案
3. 审查智能体评估该方案
4. 如果审查通过，执行工具调用；如果不通过，返回修改建议
5. 执行智能体根据反馈调整方案（如有需要）
6. 重复3-5直至方案通过或达到最大迭代次数
7. 执行最终方案并返回结果给用户

这种设计将"三思而后行"的原则编码进系统架构——在执行不可逆操作前，先经过独立的审查环节。

## Helpfulness-Harmfulness：量化审查权衡

多智能体系统的一个根本挑战是：审查者可能在纠正错误的同时引入新的错误。为了系统衡量这一权衡，研究团队提出了Helpfulness-Harmfulness指标对。

## Helpfulness（有益性）

衡量审查反馈纠正基础智能体错误的能力：

```
Helpfulness = 被反馈纠正的基础智能体错误数 / 基础智能体总错误数 × 100%
```

高Helpfulness意味着审查者能够有效识别并纠正执行智能体的错误决策。