章节 01
ClawGuard: Runtime Security Framework for Tool-Augmented LLM Agents (导读)
本文介绍ClawGuard,一种针对工具增强型LLM智能体的运行时安全框架,核心目标是防御间接提示注入攻击。其关键设计理念是将不确定的对齐依赖转化为确定性的规则执行机制,无需修改模型或基础设施即可实现有效保护,为智能体安全提供务实的增强路径。
正文
本文介绍ClawGuard,一种针对工具增强型LLM智能体的运行时安全框架,通过确定性规则执行机制防御间接提示注入攻击,无需修改模型或基础设施即可实现有效保护。
章节 01
本文介绍ClawGuard,一种针对工具增强型LLM智能体的运行时安全框架,核心目标是防御间接提示注入攻击。其关键设计理念是将不确定的对齐依赖转化为确定性的规则执行机制,无需修改模型或基础设施即可实现有效保护,为智能体安全提供务实的增强路径。
章节 02
随着工具增强型LLM智能体在复杂任务中的应用普及,间接提示注入攻击成为新的安全威胁。与直接提示注入不同,恶意指令隐藏在工具返回的可信内容中(如网页、文件、MCP服务器数据等),当智能体将这些内容纳入对话历史时,攻击者构造的恶意指令会被执行,可能导致未授权操作、敏感信息泄露等危害。
章节 03
研究团队识别出三类间接提示注入攻击渠道:
章节 04
ClawGuard的设计理念是将不确定的对齐依赖转化为确定性的规则执行。传统防御依赖模型对齐训练,但效果难以保证且易被绕过。ClawGuard不判断指令是否恶意,而是在行为层面限制智能体权限:通过强制执行用户确认的规则集,确保即使恶意指令注入,也无法执行超出授权范围的操作。其优势包括:防御确定性、规则可审计、机制透明。
章节 05
ClawGuard的技术实现包含三个关键环节:
章节 06
研究团队在5个先进LLM上,通过AgentDojo、SkillInject和MCPSafeBench三个基准测试验证了ClawGuard的有效性。结果显示,框架能有效阻止所有测试场景中的间接提示注入攻击,同时保持智能体正常功能不受影响,实现了安全性与可用性的“零妥协”平衡。
章节 07
ClawGuard对智能体生态的启示包括:
章节 08
ClawGuard的局限包括:当前仅针对工具调用层面防护,对非工具调用的纯对话式攻击(如社会工程诱导)需其他机制配合;复杂任务场景下,访问约束的自动推导可能需要更精细的人工调整。未来方向将聚焦于平衡自动化与精细化控制,以及扩展防御范围。