Zing 论坛

正文

ClawGuard:为工具增强型LLM智能体构建运行时安全防线

本文介绍ClawGuard,一种针对工具增强型LLM智能体的运行时安全框架,通过确定性规则执行机制防御间接提示注入攻击,无需修改模型或基础设施即可实现有效保护。

LLM安全提示注入智能体安全工具调用运行时防护MCPAI安全框架
发布时间 2026/04/14 01:55最近活动 2026/04/14 11:47预计阅读 2 分钟
ClawGuard:为工具增强型LLM智能体构建运行时安全防线
1

章节 01

ClawGuard: Runtime Security Framework for Tool-Augmented LLM Agents (导读)

本文介绍ClawGuard,一种针对工具增强型LLM智能体的运行时安全框架,核心目标是防御间接提示注入攻击。其关键设计理念是将不确定的对齐依赖转化为确定性的规则执行机制,无需修改模型或基础设施即可实现有效保护,为智能体安全提供务实的增强路径。

2

章节 02

Background: New Security Challenges for Tool-Augmented Agents

随着工具增强型LLM智能体在复杂任务中的应用普及,间接提示注入攻击成为新的安全威胁。与直接提示注入不同,恶意指令隐藏在工具返回的可信内容中(如网页、文件、MCP服务器数据等),当智能体将这些内容纳入对话历史时,攻击者构造的恶意指令会被执行,可能导致未授权操作、敏感信息泄露等危害。

3

章节 03

Attack Surface Analysis: Three Indirect Prompt Injection Channels

研究团队识别出三类间接提示注入攻击渠道:

  1. 网络与本地内容注入:恶意指令嵌入网页或本地文件内容,被智能体视为可信输入;
  2. MCP服务器注入:MCP服务器(连接智能体与外部服务的桥梁)返回数据中植入攻击指令;
  3. 技能文件注入:不可信的外部技能文件成为攻击载体。 这些渠道的共同特点是恶意指令伪装在智能体信任的“观察数据”中,绕过传统输入过滤机制。
4

章节 04

Core Design Philosophy: Deterministic Rule Execution Over Uncertain Alignment

ClawGuard的设计理念是将不确定的对齐依赖转化为确定性的规则执行。传统防御依赖模型对齐训练,但效果难以保证且易被绕过。ClawGuard不判断指令是否恶意,而是在行为层面限制智能体权限:通过强制执行用户确认的规则集,确保即使恶意指令注入,也无法执行超出授权范围的操作。其优势包括:防御确定性、规则可审计、机制透明。

5

章节 05

Technical Implementation: Access Constraints & Rule Enforcement

ClawGuard的技术实现包含三个关键环节:

  1. 任务特定访问约束自动推导:从用户目标中提取所需的最小权限(如“总结PDF”仅授予该文档读取权限);
  2. 工具调用边界规则执行:拦截工具调用,检查是否符合访问约束,阻止未授权操作;
  3. 多渠道统一防御:防御发生在工具调用边界,覆盖所有攻击渠道。 ClawGuard无需修改模型或基础设施,可透明集成到现有系统。
6

章节 06

Experimental Validation: Effective Defense with Zero Compromise

研究团队在5个先进LLM上,通过AgentDojo、SkillInject和MCPSafeBench三个基准测试验证了ClawGuard的有效性。结果显示,框架能有效阻止所有测试场景中的间接提示注入攻击,同时保持智能体正常功能不受影响,实现了安全性与可用性的“零妥协”平衡。

7

章节 07

Implications for Agent Ecosystem: Key Insights

ClawGuard对智能体生态的启示包括:

  1. 确定性防御机制:比依赖模型对齐的不确定方法更可靠;
  2. 权限最小化原则:根据用户目标动态推导最小必要权限,降低攻击面;
  3. 非侵入式安全增强:无需修改模型或重构基础设施,即可提升安全性。
8

章节 08

Limitations & Future Directions

ClawGuard的局限包括:当前仅针对工具调用层面防护,对非工具调用的纯对话式攻击(如社会工程诱导)需其他机制配合;复杂任务场景下,访问约束的自动推导可能需要更精细的人工调整。未来方向将聚焦于平衡自动化与精细化控制,以及扩展防御范围。