章节 01
【导读】TraceSafe:多步工具调用轨迹安全护栏的系统评估核心要点
本文聚焦LLM智能体多步工具调用中间轨迹的安全问题,填补领域评估空白。核心贡献包括提出首个轨迹级安全基准TraceSafe-Bench(12类风险、1000+实例),并发现三大规律:护栏效果依赖结构化数据能力而非语义对齐、模型架构比规模更重要、准确率随执行步骤提升。
正文
TraceSafe-Bench是首个专门评估多步工具调用中间轨迹安全性的综合基准,涵盖12类风险、超过1000个执行实例。研究发现:护栏效果更依赖结构化数据能力而非语义安全对齐;模型架构比规模更重要;准确率随执行步骤增加而提升。
章节 01
本文聚焦LLM智能体多步工具调用中间轨迹的安全问题,填补领域评估空白。核心贡献包括提出首个轨迹级安全基准TraceSafe-Bench(12类风险、1000+实例),并发现三大规律:护栏效果依赖结构化数据能力而非语义对齐、模型架构比规模更重要、准确率随执行步骤提升。
章节 02
LLM从静态聊天机器人进化为自主工具调用智能体,安全风险从最终输出转向中间轨迹。传统护栏聚焦最终内容,而恶意工具调用序列可能提前完成破坏,现有中间轨迹安全评估几乎空白。
章节 03
TraceSafe-Bench是首个评估多步工具调用轨迹安全性的基准,理念为深入每一步执行评估。涵盖12类风险:安全威胁类(提示注入、隐私泄露、权限滥用)、操作失败类(幻觉错误调用、接口不一致等);含超1000个标注风险点的执行实例。
章节 04
章节 05
章节 06
局限:覆盖模态有限(缺多模态)、基于静态数据集;未来方向:开发轨迹安全训练方法、多模态轨迹评估、人机协作护栏机制。