章节 01
导读:CiPO框架解决大型推理模型遗忘难题
本文提出CiPO(Counterfactual Unlearning through iterative Preference Optimization)框架,通过生成反事实推理轨迹进行迭代偏好优化,在完全移除目标知识的同时保留模型推理能力,解决了大型推理模型(LRMs)机器遗忘的两难困境。
正文
本文提出CiPO框架,通过生成反事实推理轨迹进行迭代偏好优化,在完全移除目标知识的同时保留模型推理能力,解决了大型推理模型机器遗忘的难题。
章节 01
本文提出CiPO(Counterfactual Unlearning through iterative Preference Optimization)框架,通过生成反事实推理轨迹进行迭代偏好优化,在完全移除目标知识的同时保留模型推理能力,解决了大型推理模型(LRMs)机器遗忘的两难困境。
章节 02
近年来,机器遗忘学习成为AI热点,目标是选择性移除模型中不希望保留的信息(隐私、版权、过时知识等),无需重新训练。
LRMs强调长链条思维(CoT)推理,但现有方法存在两难:
平衡彻底遗忘与保留推理能力是核心挑战。
章节 03
针对目标知识,引导模型生成逻辑有效但结论不同的推理轨迹,避开目标知识(如遗忘"巴黎是法国首都"时,生成不确定推理)。
章节 04
定期采样当前模型输出,更新非偏好样本,防止过早收敛,保证遗忘彻底性。
章节 05
CiPO完全移除目标知识(最终答案+CoT推理均无目标信息),满足隐私合规要求。
在标准推理基准上,CiPO处理后的模型性能与原始模型差距显著小于其他方法。
章节 06
章节 07
探索高效优化策略、提升反事实质量、解决多知识遗忘、增强可解释性。
章节 08
CiPO通过反事实推理与迭代偏好优化,解决了LRM遗忘的两难问题,为AI系统的可控性、安全性和合规性提供了新路径,是机器遗忘学习领域的重要进展。