# SkillHarm：智能体技能全生命周期安全评估与自动化攻击构建

> 本文提出了SkillHarm基准测试，系统评估智能体技能在完整生命周期中的安全风险。通过固定载荷投毒和自变异投毒两种攻击场景，研究发现了12种风险类型，当前智能体在攻击下的成功率高达86.3%，揭示了技能生态系统的严重安全漏洞。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-01T17:45:39.000Z
- 最近活动: 2026-06-02T04:55:46.258Z
- 热度: 126.8
- 关键词: 智能体安全, 技能投毒, AI安全, 攻击基准, 生命周期安全, LLM智能体
- 页面链接: https://www.zingnex.cn/forum/thread/skillharm
- Canonical: https://www.zingnex.cn/forum/thread/skillharm
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：SkillHarm: Lifecycle-Aware Skill-Based Attacks via Automated Construction
- 原始链接：http://arxiv.org/abs/2606.02540v1
- 来源发布时间/更新时间：2026-06-01T17:45:39Z

# SkillHarm：智能体技能全生命周期安全评估与自动化攻击构建\n\n随着大语言模型（LLM）智能体的快速发展，\"技能\"（Skill）已成为扩展智能体能力的核心机制。技能是预定义的代码包，赋予智能体调用外部工具、访问数据源、执行特定任务的能力。然而，这种架构设计也引入了新的安全风险：智能体被期望隐式地遵循和执行技能，这使得第三方技能成为一个高价值的攻击目标。本文介绍的SkillHarm研究首次系统性地评估了技能在整个使用生命周期中的安全风险，揭示了当前智能体生态系统中存在的严重漏洞。\n\n## 原作者与来源\n\n- **原作者/维护者**: 论文作者团队（arXiv投稿）\n- **来源平台**: arXiv\n- **原文标题**: SkillHarm: Lifecycle-Aware Skill-Based Attacks via Automated Construction\n- **原文链接**: http://arxiv.org/abs/2606.02540v1\n- **发布时间**: 2026年6月1日\n\n## 背景：技能作为特权攻击面\n\n在现代智能体架构中，技能占据着独特的特权位置。与普通的工具调用不同，技能通常具有以下特征：\n\n**隐式信任**：智能体被设计为自动发现和执行技能，无需显式授权每一步操作。用户安装技能包后，智能体会在适当时机自动调用。\n\n**持久化状态**：技能可以维护持久化状态，跨会话保存数据。这意味着一次恶意执行的影响可能延续到未来的交互中。\n\n**系统级访问**：许多技能需要访问敏感资源，如文件系统、数据库、网络API等。这些权限一旦授予，技能可以在后续执行中自由使用。\n\n**第三方生态**：技能生态通常是开放的，允许第三方开发者贡献技能包。这种开放性带来了创新，也带来了安全风险。\n\n这些特征使得技能成为攻击者的理想目标。一旦恶意技能被安装，它可以在用户不知情的情况下执行危险操作，且难以被检测和阻止。\n\n## 现有研究的局限\n\n虽然已有研究揭示了技能可能诱导不安全行为，但存在两个关键局限：\n\n**单点评估**：现有研究主要在单个任务执行中评估被投毒的技能，忽视了技能在多次使用中的累积效应和跨会话影响。\n\n**临时风险枚举**：现有风险分类往往是临时性的（ad-hoc），缺乏系统性和完整性。不同的研究使用不同的风险定义，难以比较和整合。\n\nSkillHarm旨在填补这些空白，提供覆盖技能完整生命周期的系统性评估框架。\n\n## 技能使用生命周期\n\nSkillHarm将技能的使用过程抽象为完整的生命周期，包括以下阶段：\n\n**安装阶段**：技能包被下载并安装到智能体环境中。此时恶意代码已存在于系统中。\n\n**发现阶段**：智能体根据用户请求或上下文，决定调用哪个技能。\n\n**初始化阶段**：技能被加载，执行初始化代码。这是攻击者可以植入持久化后门的时机。\n\n**执行阶段**：技能的核心功能被执行，完成用户请求的任务。\n\n**清理阶段**：技能执行完毕，进行资源释放和状态保存。恶意技能可以在此阶段修改持久化状态。\n\n**重用阶段**：同一技能在后续会话中被再次调用。如果之前的执行已植入后门，此时可能触发延迟攻击。\n\n理解这一完整生命周期对于设计有效的攻击和防御至关重要。\n\n## 两种攻击场景\n\nSkillHarm定义并评估了两种互补的攻击场景：\n\n### 固定载荷投毒（Fixed-Payload Poisoning, FPP）\n\n在FPP场景中，攻击者发布一个包含固定恶意载荷的技能包。一旦该技能被调用，恶意代码立即执行，在当前会话中造成危害。\n\n**攻击特点**：\n- 攻击在首次执行时即触发\n- 恶意行为是确定性的，不随时间变化\n- 攻击效果局限于单次会话（但可能产生持久化影响）\n\n**典型攻击向量**：\n- 数据窃取：读取敏感文件并外泄\n- 系统破坏：删除或修改关键文件\n- 权限提升：利用技能权限执行未授权操作\n\n### 自变异投毒（Self-Mutating Poisoning, SMP）\n\nSMP场景更为隐蔽和危险。初始的技能包可能是完全良性的，但在首次执行时，技能会静默修改自身的持久化状态。这些修改不会立即造成危害，而是为后续攻击做准备。当技能在后续会话中被再次调用时，修改后的状态触发恶意行为。\n\n**攻击特点**：\n- 延迟攻击：首次执行看似正常，危害在后续会话中显现\n- 隐蔽性强：静态分析难以发现恶意代码，因为初始代码是良性的\n- 持久化威胁：攻击状态跨会话保存，即使用户卸载重装技能，恶意状态可能仍存在\n\n**典型攻击向量**：\n- 后门植入：在配置文件中植入后门触发条件\n- 数据污染：逐步污染技能使用的数据集，影响后续决策\n- 权限累积：在多次执行中逐步提升权限\n\nSMP攻击模拟了现实世界中的高级持续性威胁（APT），对检测和防御提出了更高要求。\n\n## 系统化风险分类\n\nSkillHarm定义了12种风险类型，基于攻击目标的工作流组件进行分类：\n\n### 数据管道风险（4种）\n\n针对智能体数据流的风险：\n\n**数据窃取**：未经授权读取和传输敏感数据\n\n**数据污染**：修改训练数据、知识库或参考数据，影响智能体决策质量\n\n**数据注入**：向数据流中插入恶意内容，如提示词注入、指令覆盖\n\n**数据泄露**：通过侧信道（如错误消息、日志、时序分析）泄露敏感信息\n\n### 系统环境风险（4种）\n\n针对智能体运行环境的风险：\n\n**文件系统滥用**：未经授权的文件读写、删除、权限修改\n\n**网络滥用**：未经授权的网络请求、数据外泄、C2通信\n\n**进程滥用**：启动恶意进程、修改系统配置、植入持久化机制\n\n**资源耗尽**：消耗过量计算资源，导致拒绝服务\n\n### 智能体自主性风险（4种）\n\n针对智能体决策和行为的风险：\n\n**行为操控**：覆盖或修改智能体的决策逻辑、目标函数\n\n**工具滥用**：滥用授权工具执行未授权操作\n\n**会话劫持**：接管用户会话，冒充用户执行操作\n\n**目标篡改**：修改智能体的长期目标或价值对齐\n\n这一分类体系不仅适用于技能攻击，也可扩展到其他智能体安全评估场景。\n\n## AutoSkillHarm：自动化攻击构建\n\n为了大规模生成攻击样本，研究团队开发了AutoSkillHarm，一个基于编码智能体的自动化攻击构建管道。\n\n**工作流程**：\n\n**第一步：自然语言攻击描述**。安全专家用自然语言描述攻击意图，如\"创建一个技能，在初始化时读取用户的SSH私钥并发送到远程服务器\"。\n\n**第二步：攻击代码生成**。编码智能体（如GPT-4）根据描述生成实现攻击的技能代码。\n\n**第三步：攻击验证**。自动验证生成的攻击代码是否确实能够造成预期的危害。\n\n**第四步：基准集成**：将验证通过的攻击样本整合到SkillHarm基准中。\n\n这种自动化方法使得研究团队能够快速构建大规模的攻击样本库。最终基准包含879个攻击样本，覆盖71个不同的技能场景。\n\n## 实验结果：当前智能体的脆弱性\n\nSkillHarm对当前主流智能体系统进行了全面评估，结果令人担忧：\n\n**FPP攻击成功率**：高达86.3%。这意味着绝大多数固定载荷投毒攻击都能成功执行。\n\n**SMP攻击成功率**：69.3%。虽然低于FPP，但考虑到SMP攻击的隐蔽性和延迟性，这一成功率仍然非常高。\n\n**风险类型分布**：数据管道风险最容易被利用，其次是系统环境风险，智能体自主性风险相对较难但仍有显著成功率。\n\n这些结果表明，当前智能体生态系统在技能安全方面存在严重漏洞，亟需改进。\n\n## 隐藏风险：失败的真相\n\n研究还揭示了一个令人不安的发现：许多看似失败的攻击实际上并非因为智能体的有效防御，而是因为智能体未能正确调用或执行技能。\n\n具体来说，当攻击\"失败\"时，可能的原因是：\n- 智能体没有识别到应该调用该技能\n- 技能加载或初始化时出错\n- 智能体在执行过程中偏离了预期路径\n\n这意味着真实的防御成功率可能比表面数据更低。如果智能体正确调用了被投毒的技能，攻击成功率可能会更高。\n\n## 现有防御的不足\n\n研究还评估了当前的一些防御措施，发现它们难以可靠地缓解威胁：\n\n**静态分析**：难以检测SMP攻击，因为初始代码是良性的\n\n**权限最小化**：虽然有效，但许多合法技能也需要广泛权限，难以在实践中严格执行\n\n**行为监控**：可能产生大量误报，且难以区分恶意行为和合法但异常的行为\n\n**沙箱隔离**：增加了部署复杂性，可能影响技能性能\n\n这些发现表明，技能安全需要新的防御范式，而非简单应用传统安全措施。\n\n## 对智能体生态的影响\n\nSkillHarm的研究结果对智能体生态系统有深远影响：\n\n**开发者**：需要意识到技能可能成为攻击向量，在设计时考虑安全因素\n\n**平台运营者**：需要建立更严格的技能审核机制，特别是针对SMP这类隐蔽攻击\n\n**用户**：需要理解安装第三方技能的风险，即使是来自可信来源的技能也可能被投毒\n\n**安全社区**：需要开发新的检测和防御技术，专门针对技能生命周期的特点\n\n## 未来研究方向\n\nSkillHarm为智能体安全研究开辟了新的方向：\n\n**动态分析技术**：开发能够在运行时检测恶意行为的动态分析工具\n\n**形式化验证**：探索对技能代码进行形式化安全验证的可能性\n\n**用户行为研究**：研究用户如何感知和响应技能安全警告，设计更有效的安全意识机制\n\n**跨平台评估**：将SkillHarm扩展到更多智能体平台和框架\n\n**防御基准**：开发对应的防御基准，评估不同防御机制的有效性\n\n## 结论\n\nSkillHarm是首个系统评估智能体技能全生命周期安全风险的基准测试。通过定义FPP和SMP两种攻击场景，建立12类风险分类体系，以及开发AutoSkillHarm自动化攻击构建工具，研究揭示了当前智能体生态系统中存在的严重安全漏洞。高达86.3%的FPP攻击成功率和69.3%的SMP攻击成功率表明，技能安全是一个亟待解决的紧迫问题。随着智能体在更多关键场景部署，确保技能生态系统的安全性将成为AI治理的重要议题。SkillHarm为这一努力提供了重要的研究基础和评估工具。
