章节 01
RePAIR:交互式机器遗忘,让用户掌控大模型知识边界(导读)
本文介绍RePAIR框架,提出交互式机器遗忘(IMU)新范式,用户可通过自然语言指令让模型在推理时遗忘特定知识。核心STAMP方法通过伪逆更新将MLP激活引导至拒绝子空间,无需训练即可实现高效、设备端的知识删除,解决大模型选择性遗忘难题,将数据控制权交还给用户。
正文
本文介绍RePAIR框架,实现交互式机器遗忘(IMU)新范式,用户可通过自然语言指令让模型在推理时遗忘特定知识。核心STAMP方法通过伪逆更新将MLP激活引导至拒绝子空间,无需训练即可实现高效、设备端的知识删除。
章节 01
本文介绍RePAIR框架,提出交互式机器遗忘(IMU)新范式,用户可通过自然语言指令让模型在推理时遗忘特定知识。核心STAMP方法通过伪逆更新将MLP激活引导至拒绝子空间,无需训练即可实现高效、设备端的知识删除,解决大模型选择性遗忘难题,将数据控制权交还给用户。
章节 02
大模型训练吸收海量数据,易学习有害知识(如制造危险物品)、错误信息(伪科学建议)、个人隐私,且缺乏选择性遗忘机制。现有机器遗忘方法为提供商中心化,需重新训练或复杂后处理,普通用户无法自主控制数据是否被遗忘,引发隐私伦理问题。
章节 03
RePAIR提出交互式机器遗忘(IMU)范式,用户通过自然语言指令实时触发遗忘。系统含三组件:看门狗模型检测遗忘意图,外科医生模型生成修复程序(确定遗忘内容、规划步骤、生成参数修改指令),患者模型执行参数更新,实现职责分离。
章节 04
STAMP(Steering Through Activation Manipulation with PseudoInverse)是RePAIR核心技术,无需训练、单样本、高效。基于观察:模型知识编码在MLP激活模式中,通过伪逆更新将激活引导至拒绝子空间,使模型对相关输入拒绝回答。低秩变体降低计算复杂度,毫秒级完成,支持设备端执行。
章节 05
在三个场景测试RePAIR:1.有害知识抑制:遗忘分数接近0,保留任务性能84.47%;2.错误信息纠正:F-RL指标0.00,彻底遗忘错误信息;3.个人数据擦除:R-RL指标0.88,精确擦除且保留无关知识。与6个基线对比,在遗忘彻底性、模型效用、效率、用户控制上表现最优。
章节 06
技术亮点:1.用户自主控制,无需依赖提供商;2.无需训练,毫秒级遗忘;3.设备端执行,隐私保护;4.可扩展至多模态模型。应用场景:个人隐私保护(GDPR合规)、企业数据安全、实时事实核查、安全合规。
章节 07
局限性:彻底遗忘理论未完全解决,可能间接恢复;副作用控制难(过度/不足遗忘);对抗性攻击风险;可解释性待提升。未来方向:多模态遗忘、渐进式遗忘、可逆遗忘、联邦遗忘。