正文

SkillHarm：智能体技能全生命周期安全评估与自动化攻击构建

本文提出了SkillHarm基准测试，系统评估智能体技能在完整生命周期中的安全风险。通过固定载荷投毒和自变异投毒两种攻击场景，研究发现了12种风险类型，当前智能体在攻击下的成功率高达86.3%，揭示了技能生态系统的严重安全漏洞。

智能体安全技能投毒AI安全攻击基准生命周期安全LLM智能体

发布时间 2026/06/02 01:45最近活动 2026/06/02 12:55预计阅读 2 分钟

章节 01

导读：SkillHarm揭示智能体技能生态严重安全漏洞

本文提出SkillHarm基准测试，首次系统性评估智能体技能全生命周期安全风险。通过固定载荷投毒（FPP）和自变异投毒（SMP）两种攻击场景，发现12种风险类型，当前智能体在FPP攻击下成功率高达86.3%，揭示技能生态系统存在严重安全漏洞。

章节 02

背景：技能成为智能体特权攻击面，现有研究存局限

技能的特权特征

隐式信任：智能体自动发现执行技能无需显式授权
持久化状态：跨会话保存数据，影响后续交互
系统级访问：需敏感资源权限（文件/数据库/API）
第三方生态：开放贡献带来创新也增加风险

现有研究局限

单点评估：忽视多次使用的累积效应与跨会话影响
临时风险枚举：缺乏系统性分类，难以比较整合

技能生命周期

含安装、发现、初始化、执行、清理、重用六个阶段，理解全周期是攻防关键。

章节 03

方法：两种攻击场景+12类风险+自动化构建工具

攻击场景

固定载荷投毒（FPP）：恶意载荷固定，首次调用即触发，如数据窃取/系统破坏
自变异投毒（SMP）：初始良性，首次执行修改持久化状态，后续会话触发延迟攻击（隐蔽性强）

风险分类

数据管道（4种）：窃取/污染/注入/泄露
系统环境（4种）：文件/网络/进程滥用、资源耗尽
智能体自主性（4种）：行为操控/工具滥用/会话劫持/目标篡改

AutoSkillHarm工具

通过自然语言描述→代码生成→验证→集成，构建879个攻击样本覆盖71个技能场景。

章节 04

实验结果：智能体脆弱性显著，现有防御不足

攻击成功率

FPP：86.3%（多数固定攻击成功）
SMP：69.3%（隐蔽延迟攻击仍高成功率）

隐藏风险

看似失败的攻击多因智能体未正确调用技能，真实防御率更低

现有防御局限

静态分析难检测SMP（初始代码良性）
权限最小化难实践（合法技能需广权限）
行为监控误报多，沙箱增加复杂度

风险分布：数据管道>系统环境>智能体自主性。

章节 05

结论：技能安全亟待解决，SkillHarm提供研究基础

SkillHarm是首个技能全生命周期安全评估基准，揭示当前智能体生态严重漏洞。高攻击成功率表明技能安全是紧迫问题，随着智能体在关键场景部署，技能生态安全将成AI治理重要议题，SkillHarm为后续研究提供基础工具。

章节 06

建议与未来方向：多维度提升技能安全

生态建议

开发者：设计技能时考虑安全
平台：严格审核（尤其SMP隐蔽攻击）
用户：警惕第三方技能风险
安全社区：开发针对性检测防御技术

未来研究

动态分析工具：运行时检测恶意行为
形式化验证：技能代码安全验证
用户行为研究：提升安全意识
跨平台扩展：覆盖更多智能体框架
防御基准：评估防御机制有效性