# 从模型扩展到系统扩展：Agentic AI的Harness Scaling新范式

> 论文提出Agentic AI的下一个瓶颈是系统扩展而非模型扩展，通过CheetahClaws框架定义了Agent Harness的六大组件，并呼吁建立超越任务成功率的Harness级评估基准。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-25T17:59:36.000Z
- 最近活动: 2026-05-26T04:54:44.787Z
- 热度: 140.1
- 关键词: Agentic AI, Agent Harness, 系统扩展, 上下文治理, 可信记忆, 技能路由, CheetahClaws, Agent评估
- 页面链接: https://www.zingnex.cn/forum/thread/agentic-aiharness-scaling
- Canonical: https://www.zingnex.cn/forum/thread/agentic-aiharness-scaling
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：From Model Scaling to System Scaling: Scaling the Harness in Agentic AI
- 原始链接：http://arxiv.org/abs/2605.26112v1
- 来源发布时间/更新时间：2026-05-25T17:59:36Z

# 从模型扩展到系统扩展：Agentic AI的Harness Scaling新范式\n\n## 原作者与来源\n\n- **原作者/团队**：SafeRL-Lab（CheetahClaws开发团队）\n- **来源平台**：arXiv\n- **原文标题**：From Model Scaling to System Scaling: Scaling the Harness in Agentic AI\n- **原文链接**：http://arxiv.org/abs/2605.26112v1\n- **发布时间**：2026年5月25日\n\n## 背景：Agentic AI的评估困境\n\n近年来，随着GPT-4、Claude等大语言模型能力的飞速提升，AI Agent（智能体）技术迎来了爆发式增长。从AutoGPT到Devin，从Claude Code到OpenClaw，各种Agent框架层出不穷，它们能够使用工具、检索信息、维护记忆、执行长周期工作流。\n\n然而，当我们试图评估这些Agent的表现时，却遇到了一个根本性的困境：**现有的评估方法过于"以模型为中心"**。\n\n当前的Agent评估通常只关注最终任务是否成功——比如"能否完成这个编程任务"或"能否回答这个问题"。至于Agent是如何完成的、使用了什么工具、记忆管理是否高效、上下文是否得到合理利用，这些关键因素往往被视为"实现细节"而被忽略。\n\n这种评估方式的局限在于：Agent的性能并非仅仅取决于底层大模型的能力，而是来自于**模型与周围系统组件的复杂交互**。\n\n## 核心概念：什么是Agent Harness？\n\n论文提出了一个核心概念——**Harness（ harness）**，指的是围绕基础模型构建的结构化执行层。这个执行层负责将模型的原生能力转化为实际的Agent行为。\n\nAgent Harness由六大核心组件构成：\n\n### 1. 基础模型（Foundation Model）\n\n这是Harness的"大脑"，负责理解指令、生成响应、进行推理。但它本身并不知道如何调用工具、如何管理长期记忆、如何协调多步骤任务。\n\n### 2. 记忆基板（Memory Substrate）\n\nAgent需要维护跨越多个交互周期的信息。记忆基板负责存储、检索和更新这些信息，包括工作记忆、长期记忆、 episodic memory等。\n\n### 3. 上下文构造器（Context Constructor）\n\n大模型的上下文窗口有限，如何决定哪些信息应该放入当前上下文？上下文构造器负责从记忆基板中选择相关信息，构建模型输入。\n\n### 4. 技能路由层（Skill-Routing Layer）\n\nAgent通常需要调用各种工具（搜索、代码执行、文件操作等）。技能路由层负责决定何时调用哪个工具、如何传递参数、如何处理结果。\n\n### 5. 编排循环（Orchestration Loop）\n\n这是Harness的"心脏"，负责协调上述组件的交互。它定义了Agent的决策流程：接收输入→构造上下文→模型推理→路由决策→执行工具→更新记忆→循环往复。\n\n### 6. 验证与治理层（Verification-and-Governance Layer）\n\nAgent的行为需要可验证、可审计、可约束。这一层负责安全检查、权限管理、日志记录、合规性验证等。\n\n这六个组件共同构成了Agent Harness，它将模型的"潜能"转化为"实际能力"。\n\n## 三大瓶颈：Harness Scaling的核心挑战\n\n论文指出，要实现有效的Harness Scaling，必须解决三个核心瓶颈：\n\n### 瓶颈一：上下文治理（Context Governance）\n\n随着Agent任务复杂度的增加，如何高效利用有限的上下文窗口成为关键挑战。这包括：\n\n- **信息筛选**：从海量记忆中选择最相关的信息\n- **优先级管理**：区分关键信息和辅助信息\n- **动态调整**：根据任务进展调整上下文策略\n- **压缩与摘要**：在保留关键信息的同时减少token消耗\n\n当前的上下文管理大多是启发式的，缺乏系统性的优化方法。\n\n### 瓶颈二：可信记忆（Trustworthy Memory）\n\nAgent的记忆系统面临独特的挑战：\n\n- **准确性**：存储的信息可能过时或错误\n- **一致性**：多次更新可能导致矛盾\n- **溯源性**：需要知道信息的来源和可信度\n- **遗忘策略**：何时应该遗忘旧信息？\n\n与数据库不同，Agent的记忆需要支持语义检索、模糊匹配和推理关联，这使得传统数据管理技术难以直接应用。\n\n### 瓶颈三：动态技能路由（Dynamic Skill Routing）\n\n随着Agent可用工具数量的增加，如何高效选择和组合工具成为挑战：\n\n- **工具选择**：从数十甚至数百个工具中快速定位所需工具\n- **参数填充**：正确理解工具所需的参数格式\n- **错误恢复**：当工具调用失败时如何处理\n- **组合优化**：多工具组合时的执行顺序优化\n\n静态的工具描述往往不足以支持复杂场景下的路由决策。\n\n## CheetahClaws：一个参考实现\n\n为了让理论讨论具体化，研究团队开发了**CheetahClaws**——一个Python原生的参考Harness实现。\n\n### 设计原则\n\nCheetahClaws遵循以下设计原则：\n\n- **模块化**：每个组件可以独立开发、测试和替换\n- **可审计**：所有决策和执行都有详细日志\n- **持久化**：状态可以保存和恢复\n- **可验证**：支持形式化验证和测试\n\n### 与现有框架的对比\n\n论文将CheetahClaws与Claude Code和OpenClaw进行了对比：\n\n| 特性 | CheetahClaws | Claude Code | OpenClaw |\n|-----|-------------|-------------|----------|\n| 模块化设计 | 明确分离六大组件 | 内部实现 | 内部实现 |\n| 可审计性 | 完整轨迹记录 | 有限 | 完整 |\n| 持久化 | 原生支持 | 有限 | 支持 |\n| 开源 | 是 | 否 | 部分 |\n\nCheetahClaws的价值不在于性能超越商业框架，而在于提供了一个**可研究、可实验、可改进**的开放基线。\n\n## Harness级评估：超越任务成功率\n\n论文呼吁建立新的评估范式——**Harness级基准测试**，不仅关注最终任务是否成功，还要评估整个执行过程的质量。\n\n### 新的评估维度\n\nHarness级评估应该包括：\n\n- **轨迹质量（Trajectory Quality）**：Agent的执行路径是否高效、合理\n- **记忆卫生（Memory Hygiene）**：记忆管理是否准确、一致、及时\n- **上下文效率（Context Efficiency）**：上下文窗口的利用是否高效\n- **通信保真度（Communication Fidelity）**：与工具/环境的交互是否准确\n- **验证成本（Verification Cost）**：验证Agent行为的计算开销\n- **安全演化（Safe Evolution）**：Agent行为随时间变化的可预测性\n\n### 为什么这很重要？\n\n考虑两个Agent：\n\n- Agent A：通过大量试错最终完成任务\n- Agent B：直接高效地完成任务\n\n在传统的任务成功率评估中，两者得分相同。但在Harness级评估中，Agent B会获得更高的轨迹质量和上下文效率分数。\n\n这种细粒度评估对于以下场景至关重要：\n\n- **成本优化**：在API调用按token计费的时代，效率就是金钱\n- **安全关键应用**：医疗、金融等领域需要可预测、可验证的行为\n- **长期部署**：持续运行的Agent需要维护良好的记忆卫生\n\n## 技术启示：系统设计与模型能力的平衡\n\n论文的核心论点是：**Agentic AI的未来进步将同样依赖于系统设计，而不仅仅是更强的基础模型**。\n\n这一观点挑战了当前AI领域的一种隐含假设——"只要模型足够强，其他问题都会迎刃而解"。实际上：\n\n- **模型是必要条件，但不是充分条件**：强大的模型提供了可能性，但Harness决定了这些可能性能否被有效实现\n- **系统组件有独立的研究价值**：上下文构造、记忆管理、技能路由等问题值得专门研究\n- **评估需要跟上系统复杂度**：如果评估只关注最终结果，系统优化就缺乏明确目标\n\n## 实践建议：如何设计更好的Agent系统\n\n基于Harness框架，论文提出了几点实践建议：\n\n### 1. 明确分离关注点\n\n将基础模型、记忆、上下文构造、技能路由等组件明确分离，每个组件有清晰的接口和责任。这有助于独立优化和测试。\n\n### 2. 投资于可观测性\n\n完善的日志和监控是Harness级优化的基础。需要记录：\n- 每次模型调用的输入输出\n- 记忆读写操作\n- 工具调用序列\n- 上下文构造决策\n\n### 3. 建立Harness级评估流水线\n\n除了最终任务成功率，还应该测量：\n- 完成任务所需的模型调用次数\n- 上下文token的使用效率\n- 记忆检索的准确率\n- 工具调用的成功率\n\n### 4. 考虑长期运行特性\n\nAgent往往需要在长时间内持续运行。设计时需要考虑：\n- 记忆增长的管理策略\n- 上下文漂移的检测和纠正\n- 性能随时间的稳定性\n\n## 局限与未来方向\n\n论文也坦诚地指出了当前研究的局限：\n\n- **CheetahClaws的成熟度**：作为研究原型，尚未经过大规模生产环境验证\n- **评估基准的缺失**：Harness级评估的具体指标和测试集仍在发展中\n- **跨领域泛化**：不同应用领域（编程、对话、数据分析）可能需要不同的Harness设计\n\n未来研究方向包括：\n\n- **自适应Harness**：根据任务特性动态调整Harness配置\n- **多Agent协作**：多个Agent的Harness如何协调\n- **人机协作Harness**：如何设计支持人类介入的Agent系统\n\n## 结语：迈向系统级AI工程\n\n这篇论文标志着AI工程思维的重要转变——从"模型中心"到"系统中心"。它提醒我们，大语言模型虽然强大，但要构建真正可靠、高效、可扩展的Agent系统，还需要在Harness层面进行大量工程创新。\n\n对于AI工程师而言，这意味着新的机会和挑战：不仅要理解模型，还要掌握系统设计、软件工程、分布式系统等广泛技能。\n\n对于AI研究者而言，Harness Scaling提出了新的研究问题：如何优化上下文构造？如何设计可信的记忆系统？如何实现高效的动态路由？这些问题可能不如"训练更大的模型"那样引人注目，但对于AI的实际应用同样关键。\n\n正如论文标题所言：Agentic AI的下一个前沿，可能不在模型扩展，而在系统扩展。