正文

DELMAN：通过模型编辑技术动态防御大语言模型越狱攻击的新方法

清华大学团队提出的DELMAN方法利用模型编辑技术动态防御LLM越狱攻击，在ACL 2025 Findings发表，可在保持模型正常性能的同时有效抵御多种越狱攻击。

大语言模型越狱攻击模型编辑AI安全ACL 2025LLM防御Model EditingJailbreaking对齐技术

发布时间 2026/05/12 10:55最近活动 2026/05/12 10:59预计阅读 2 分钟

章节 01

DELMAN：动态防御LLM越狱攻击的新方法（导读）

清华大学团队提出DELMAN方法，利用模型编辑技术动态防御大语言模型（LLM）越狱攻击，该工作已被ACL 2025 Findings接收。DELMAN可在保持模型正常性能的同时，有效抵御多种越狱攻击，为LLM安全防御提供新路径。

章节 02

研究背景与传统防御的局限

随着LLM能力提升，越狱攻击（通过精心设计的提示词诱导生成有害内容）问题日益突出。传统防御方法存在局限：推理阶段的输入过滤易被对抗样本绕过、输出检测有滞后性；安全对齐训练成本高昂。

章节 03

DELMAN方法概述与技术原理

DELMAN（Dynamic Defense Against Large Language Model Jailbreaking with Model Editing）是动态防御机制，核心利用模型编辑技术（不重新训练整个模型，修改特定知识存储点）。其关键机制包括：1.攻击模式特征表示（分析恶意输入激活模式，计算正常与恶意输入的协方差差异形成cov矩阵）；2.动态知识编辑（可逆、上下文相关，借鉴ROME/MEMIT算法优化，注入修正向量改变危险响应）；3.保持原有能力（编辑限制在特定子空间，不影响通用性能）。

章节 04

实验评估与效果验证

在Qwen2.5-7B-Instruct、Llama-3.1-8B-Instruct等模型上验证，采用HarmBench基准涵盖多种攻击（基于优化的GCG/AutoDAN、手工模板、编码混淆）。结果显示：DELMAN显著降低有害内容生成概率，良性任务性能保持率超95%，平衡了安全性与可用性。

章节 05

实现与部署说明

DELMAN已在GitHub开源，依赖PyTorch、Transformers等库，基于MEMIT/BadEdit框架扩展。提供预计算cov矩阵，建议用户根据硬件重算以优化效果；针对Llama 3.1等模型需调整配置（如修改repr_tools.py的offset参数）。

章节 06

研究意义与未来展望

DELMAN为LLM安全防御提供新范式（安全能力内化，响应更快、对抗性更强）；后续工作EVA已被IEEE TPAMI 2026接收，拓展模型编辑在安全对齐的应用。该研究展示模型可解释性转化为安全应用的价值，为LLM安全架构提供重要方向。

DELMAN：通过模型编辑技术动态防御大语言模型越狱攻击的新方法

DELMAN：动态防御LLM越狱攻击的新方法（导读）

研究背景与传统防御的局限

DELMAN方法概述与技术原理

实验评估与效果验证

实现与部署说明

研究意义与未来展望

继续阅读

SignalCut：将AI搜索可见性缺口转化为视频营销活动的智能工具

AWS开源AI搜索引用分析系统：追踪品牌在AI搜索引擎中的曝光度

Next.js 应用的 SEO 与 GEO 一体化优化方案：从搜索引擎到 AI 助手的全面可见性

百原GEO Platform技术白皮书：生成式引擎优化（GEO）的SaaS工程实践