Zing 论坛

正文

SkillHarm:智能体技能全生命周期安全评估与自动化攻击构建

本文提出了SkillHarm基准测试,系统评估智能体技能在完整生命周期中的安全风险。通过固定载荷投毒和自变异投毒两种攻击场景,研究发现了12种风险类型,当前智能体在攻击下的成功率高达86.3%,揭示了技能生态系统的严重安全漏洞。

智能体安全技能投毒AI安全攻击基准生命周期安全LLM智能体
发布时间 2026/06/02 01:45最近活动 2026/06/02 12:55预计阅读 2 分钟
SkillHarm:智能体技能全生命周期安全评估与自动化攻击构建
1

章节 01

导读:SkillHarm揭示智能体技能生态严重安全漏洞

本文提出SkillHarm基准测试,首次系统性评估智能体技能全生命周期安全风险。通过固定载荷投毒(FPP)和自变异投毒(SMP)两种攻击场景,发现12种风险类型,当前智能体在FPP攻击下成功率高达86.3%,揭示技能生态系统存在严重安全漏洞。

2

章节 02

背景:技能成为智能体特权攻击面,现有研究存局限

技能的特权特征

  • 隐式信任:智能体自动发现执行技能无需显式授权
  • 持久化状态:跨会话保存数据,影响后续交互
  • 系统级访问:需敏感资源权限(文件/数据库/API)
  • 第三方生态:开放贡献带来创新也增加风险

现有研究局限

  • 单点评估:忽视多次使用的累积效应与跨会话影响
  • 临时风险枚举:缺乏系统性分类,难以比较整合

技能生命周期

含安装、发现、初始化、执行、清理、重用六个阶段,理解全周期是攻防关键。

3

章节 03

方法:两种攻击场景+12类风险+自动化构建工具

攻击场景

  1. 固定载荷投毒(FPP):恶意载荷固定,首次调用即触发,如数据窃取/系统破坏
  2. 自变异投毒(SMP):初始良性,首次执行修改持久化状态,后续会话触发延迟攻击(隐蔽性强)

风险分类

  • 数据管道(4种):窃取/污染/注入/泄露
  • 系统环境(4种):文件/网络/进程滥用、资源耗尽
  • 智能体自主性(4种):行为操控/工具滥用/会话劫持/目标篡改

AutoSkillHarm工具

通过自然语言描述→代码生成→验证→集成,构建879个攻击样本覆盖71个技能场景。

4

章节 04

实验结果:智能体脆弱性显著,现有防御不足

攻击成功率

  • FPP:86.3%(多数固定攻击成功)
  • SMP:69.3%(隐蔽延迟攻击仍高成功率)

隐藏风险

看似失败的攻击多因智能体未正确调用技能,真实防御率更低

现有防御局限

  • 静态分析难检测SMP(初始代码良性)
  • 权限最小化难实践(合法技能需广权限)
  • 行为监控误报多,沙箱增加复杂度

风险分布:数据管道>系统环境>智能体自主性。

5

章节 05

结论:技能安全亟待解决,SkillHarm提供研究基础

SkillHarm是首个技能全生命周期安全评估基准,揭示当前智能体生态严重漏洞。高攻击成功率表明技能安全是紧迫问题,随着智能体在关键场景部署,技能生态安全将成AI治理重要议题,SkillHarm为后续研究提供基础工具。

6

章节 06

建议与未来方向:多维度提升技能安全

生态建议

  • 开发者:设计技能时考虑安全
  • 平台:严格审核(尤其SMP隐蔽攻击)
  • 用户:警惕第三方技能风险
  • 安全社区:开发针对性检测防御技术

未来研究

  • 动态分析工具:运行时检测恶意行为
  • 形式化验证:技能代码安全验证
  • 用户行为研究:提升安全意识
  • 跨平台扩展:覆盖更多智能体框架
  • 防御基准:评估防御机制有效性