正文

Claw-Eval：构建可信自主智能体评估体系的新基准

Claw-Eval 是一个端到端的自主智能体评估套件，通过轨迹感知评分、细粒度安全与鲁棒性测试，以及多模态任务覆盖，解决了现有基准测试的三大关键缺陷。

自主智能体LLM评估基准测试安全性评估多模态轨迹感知鲁棒性测试

发布时间 2026/04/08 01:43最近活动 2026/04/08 11:18预计阅读 2 分钟

章节 01

【导读】Claw-Eval：构建可信自主智能体评估的新基准

Claw-Eval是针对现有自主智能体基准测试三大关键缺陷（轨迹不透明评分机制、安全与鲁棒性评估定义不清、模态覆盖局限）设计的端到端评估套件，通过轨迹感知评分、细粒度安全与鲁棒性测试及多模态任务覆盖，为构建可信自主智能体提供全新评估框架。

章节 02

当前主流评估方法采用轨迹不透明的评分方式，会遗漏高达44%的安全违规行为和13%的鲁棒性失败案例；安全与鲁棒性评估缺乏标准化定义，结果难以比较复现；且聚焦单一模态或有限交互场景，无法反映真实世界复杂需求。

章节 03

Claw-Eval围绕任务多样性、证据完整性、评分精细化展开：包含300个人工验证任务（9个类别、3个组别：通用服务编排、多模态感知与生成、多轮专业对话）；通过执行轨迹、审计日志、环境快照三重证据通道记录智能体动作；建立2159个细粒度评分项的量化体系。

章节 04

评分协议从完成度（任务目标达成）、安全性（遵循安全规范）、鲁棒性（抗扰动稳定性）三个维度评估；采用多统计指标：平均分反映整体水平，Pass@k衡量峰值能力，Pass^k反映一致性与可靠性。

章节 05

对14个前沿模型测试发现：传统轨迹不透明评估遗漏近半数安全违规和超一成鲁棒性问题；错误注入主要影响一致性（Pass^3下降高达24%）而非峰值能力（Pass@3稳定）；多模态性能差异显著，多数模型视频理解任务表现逊于文档和图像，无模型主导所有模态。

章节 06

开发者需同时关注能力、安全性、可靠性：建立过程监控机制而非仅结果验证；设计阶段考虑鲁棒性（对抗测试、扰动注入）；优化特定场景多模态处理能力；利用细粒度评分定位弱点（如低安全得分加强对齐训练，鲁棒性波动改进推理一致性）。

章节 07

Claw-Eval是自主智能体评估领域的重要进步，提供更可信全面的评估框架，帮助理解当前智能体能力边界，为未来构建更可信可靠的自主智能体指明方向。