章节 01
【主楼/导读】Latent Circuit Disruption:大语言模型鲁棒性遗忘学习新方法
本文介绍了一种名为Latent Circuit Disruption(LCD)的模型遗忘技术,核心是通过精准定位并修改大语言模型中的特定知识回路,实现敏感信息的安全删除,同时保持模型其他能力不受影响。相比传统方法,LCD在遗忘彻底性、副作用控制和鲁棒性方面具有显著优势,为大语言模型的隐私保护与可控性提供了新方向。
正文
一种基于潜在回路干扰的模型遗忘技术,通过精准定位并修改特定知识回路,实现对敏感信息的安全删除,同时保持模型其他能力不受影响。
章节 01
本文介绍了一种名为Latent Circuit Disruption(LCD)的模型遗忘技术,核心是通过精准定位并修改大语言模型中的特定知识回路,实现敏感信息的安全删除,同时保持模型其他能力不受影响。相比传统方法,LCD在遗忘彻底性、副作用控制和鲁棒性方面具有显著优势,为大语言模型的隐私保护与可控性提供了新方向。
章节 02
大语言模型训练过程中会记忆大量数据,包括隐私、版权或有害内容,需高效移除特定知识。传统重新训练成本高,现有模型遗忘方法面临四大挑战:
章节 03
LCD基于关键洞察:知识在Transformer模型中以特定计算回路(注意力头与FFN神经元组合)形式存在。与传统参数层面粗粒度修改不同,LCD在回路层面精准定位和干扰,实现:
章节 04
采用多目标优化:
L_total = L_forget + λ*L_retain + μ*L_robust
章节 05
覆盖事实遗忘、版权文本遗忘、有害内容遗忘、类别遗忘四大场景。
遗忘成功率、保留性能(困惑度/准确率)、成员推理攻击抵抗力、模型提取抵抗力。
章节 06
| 方法类型 | 代表工作 | 优点 | 缺点 | LCD改进 |
|---|---|---|---|---|
| 梯度上升 | GradAscent | 简单直接 | 副作用大,遗忘不彻底 | 回路级精准定位 |
| 对比学习 | Contrastive | 保留效果好 | 计算开销大 | 潜在空间高效干扰 |
| 知识蒸馏 | Knowledge Distillation | 可解释性强 | 需要教师模型 | 无需额外模型 |
| 参数编辑 | ROME, MEMIT | 单点编辑有效 | 批量编辑冲突 | 支持批量回路编辑 |
| 影响函数 | Influence Functions | 理论完备 | 计算不可行 | 近似高效实现 |
章节 07
章节 08