章节 01
DELMAN:动态防御LLM越狱攻击的新方法(导读)
清华大学团队提出DELMAN方法,利用模型编辑技术动态防御大语言模型(LLM)越狱攻击,该工作已被ACL 2025 Findings接收。DELMAN可在保持模型正常性能的同时,有效抵御多种越狱攻击,为LLM安全防御提供新路径。
正文
清华大学团队提出的DELMAN方法利用模型编辑技术动态防御LLM越狱攻击,在ACL 2025 Findings发表,可在保持模型正常性能的同时有效抵御多种越狱攻击。
章节 01
清华大学团队提出DELMAN方法,利用模型编辑技术动态防御大语言模型(LLM)越狱攻击,该工作已被ACL 2025 Findings接收。DELMAN可在保持模型正常性能的同时,有效抵御多种越狱攻击,为LLM安全防御提供新路径。
章节 02
随着LLM能力提升,越狱攻击(通过精心设计的提示词诱导生成有害内容)问题日益突出。传统防御方法存在局限:推理阶段的输入过滤易被对抗样本绕过、输出检测有滞后性;安全对齐训练成本高昂。
章节 03
DELMAN(Dynamic Defense Against Large Language Model Jailbreaking with Model Editing)是动态防御机制,核心利用模型编辑技术(不重新训练整个模型,修改特定知识存储点)。其关键机制包括:1.攻击模式特征表示(分析恶意输入激活模式,计算正常与恶意输入的协方差差异形成cov矩阵);2.动态知识编辑(可逆、上下文相关,借鉴ROME/MEMIT算法优化,注入修正向量改变危险响应);3.保持原有能力(编辑限制在特定子空间,不影响通用性能)。
章节 04
在Qwen2.5-7B-Instruct、Llama-3.1-8B-Instruct等模型上验证,采用HarmBench基准涵盖多种攻击(基于优化的GCG/AutoDAN、手工模板、编码混淆)。结果显示:DELMAN显著降低有害内容生成概率,良性任务性能保持率超95%,平衡了安全性与可用性。
章节 05
DELMAN已在GitHub开源,依赖PyTorch、Transformers等库,基于MEMIT/BadEdit框架扩展。提供预计算cov矩阵,建议用户根据硬件重算以优化效果;针对Llama 3.1等模型需调整配置(如修改repr_tools.py的offset参数)。
章节 06
DELMAN为LLM安全防御提供新范式(安全能力内化,响应更快、对抗性更强);后续工作EVA已被IEEE TPAMI 2026接收,拓展模型编辑在安全对齐的应用。该研究展示模型可解释性转化为安全应用的价值,为LLM安全架构提供重要方向。