正文

Spore攻击：针对LLM智能代理记忆的高效隐私提取新威胁

研究团队提出Spore攻击方法，可在单次查询下从LLM智能代理记忆中提取隐私信息，且能绕过现有防御机制，对个人AI助手用户构成新的安全威胁。

隐私攻击LLM智能代理记忆安全黑盒攻击隐私提取安全对齐

发布时间 2026/04/26 21:54最近活动 2026/04/28 10:02预计阅读 2 分钟

章节 01

导读：Spore攻击——LLM智能代理记忆的高效隐私提取新威胁

研究团队提出Spore攻击方法，可在单次查询下从LLM智能代理记忆中提取隐私信息，且能绕过现有防御机制，对个人AI助手用户构成新安全威胁。该攻击填补了现有研究在推理阶段上下文隐私风险（尤其是代理记忆中用户交互信息）的空白，克服了传统攻击的高查询成本、白盒假设等局限。

章节 02

背景：LLM智能代理的隐私隐忧与现有攻击局限

随着OpenClaw等个人AI助手普及，LLM智能代理存储用户偏好、健康、财务等敏感信息以提供个性化服务，但记忆能力带来隐私风险。现有隐私攻击研究多聚焦训练数据泄露，对推理阶段代理记忆的隐私风险关注不足。传统攻击存在高查询成本、依赖白盒访问、需特定训练等局限，难以对真实系统构成实际威胁。

章节 03

方法：Spore攻击的设计与核心特性

Spore攻击是无需训练的隐私提取方法，针对LLM代理记忆系统，核心创新为混合探测策略，支持两种模式：

黑盒模式：仅观察模型最终输出，通过单次查询提取候选信息集恢复隐私数据，降低攻击可见性；
灰盒模式：利用模型输出的token概率分布信息，实现更准确快速的提取。信息论分析显示，Spore每次查询信息泄露量大，且在不同模型规模、架构下保持稳定鲁棒性。

章节 04

实验验证：Spore攻击的有效性与防御绕过能力

在GPT-4、Claude、Gemini等主流LLM上的实验表明，Spore攻击成功率持续超越现有SOTA方案，且查询成本极低（黑盒模式单次查询）。跨模型稳定性强，不受目标模型参数规模影响。此外，Spore能绕过传统异常检测系统、安全对齐机制及多种防御（如输入过滤、输出监控、对抗训练），揭示当前LLM代理隐私保护的严重不足。

章节 05