章节 01
导读:SkillHarm揭示智能体技能生态严重安全漏洞
本文提出SkillHarm基准测试,首次系统性评估智能体技能全生命周期安全风险。通过固定载荷投毒(FPP)和自变异投毒(SMP)两种攻击场景,发现12种风险类型,当前智能体在FPP攻击下成功率高达86.3%,揭示技能生态系统存在严重安全漏洞。
正文
本文提出了SkillHarm基准测试,系统评估智能体技能在完整生命周期中的安全风险。通过固定载荷投毒和自变异投毒两种攻击场景,研究发现了12种风险类型,当前智能体在攻击下的成功率高达86.3%,揭示了技能生态系统的严重安全漏洞。
章节 01
本文提出SkillHarm基准测试,首次系统性评估智能体技能全生命周期安全风险。通过固定载荷投毒(FPP)和自变异投毒(SMP)两种攻击场景,发现12种风险类型,当前智能体在FPP攻击下成功率高达86.3%,揭示技能生态系统存在严重安全漏洞。
章节 02
含安装、发现、初始化、执行、清理、重用六个阶段,理解全周期是攻防关键。
章节 03
通过自然语言描述→代码生成→验证→集成,构建879个攻击样本覆盖71个技能场景。
章节 04
看似失败的攻击多因智能体未正确调用技能,真实防御率更低
风险分布:数据管道>系统环境>智能体自主性。
章节 05
SkillHarm是首个技能全生命周期安全评估基准,揭示当前智能体生态严重漏洞。高攻击成功率表明技能安全是紧迫问题,随着智能体在关键场景部署,技能生态安全将成AI治理重要议题,SkillHarm为后续研究提供基础工具。
章节 06