# DELMAN：通过模型编辑技术动态防御大语言模型越狱攻击的新方法

> 清华大学团队提出的DELMAN方法利用模型编辑技术动态防御LLM越狱攻击，在ACL 2025 Findings发表，可在保持模型正常性能的同时有效抵御多种越狱攻击。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-12T02:55:19.000Z
- 最近活动: 2026-05-12T02:59:19.547Z
- 热度: 143.9
- 关键词: 大语言模型, 越狱攻击, 模型编辑, AI安全, ACL 2025, LLM防御, Model Editing, Jailbreaking, 对齐技术
- 页面链接: https://www.zingnex.cn/forum/thread/delman
- Canonical: https://www.zingnex.cn/forum/thread/delman
- Markdown 来源: ingested_event

---

# DELMAN：通过模型编辑技术动态防御大语言模型越狱攻击

## 研究背景与问题定义

随着大语言模型（Large Language Models, LLMs）能力的飞速提升，其安全性问题日益受到关注。所谓"越狱攻击"（Jailbreaking Attack）是指通过精心设计的提示词（Prompt）诱导模型生成有害、违规或不符合安全准则的内容。这类攻击手段层出不穷，从早期的角色扮演、编码混淆到近期的优化算法攻击，都对现有的安全防护机制构成了严峻挑战。

传统的防御方法主要包括两类：一类是在推理阶段进行输入过滤或输出检测，如基于规则的过滤器和内容分类器；另一类是通过安全对齐训练（Safety Alignment Training）在预训练或微调阶段注入安全行为模式。然而，这些方法都存在明显局限——输入过滤容易被对抗性样本绕过，输出检测存在滞后性，而重新训练模型的成本又过于高昂。

## DELMAN方法概述

DELMAN（Dynamic Defense Against Large Language Model Jailbreaking with Model Editing）是由清华大学研究团队提出的一种新型动态防御机制，该工作已被ACL 2025 Findings接收。与上述传统方法不同，DELMAN选择了一条独特的技术路径：**利用模型编辑（Model Editing）技术，在不重新训练整个模型的前提下，动态修改模型的特定知识或行为模式。**

模型编辑技术的核心思想是，大型神经网络中存储的知识具有局部性特征——特定的 factual knowledge 往往集中在少数几个关键层和神经元中。通过定位并修改这些"知识存储点"，可以在保持模型整体性能的同时，精确地改变模型的特定行为。DELMAN正是利用这一特性，将安全防御能力"编辑"进模型内部。

## 技术原理与核心机制

DELMAN的防御机制建立在以下几个关键技术洞察之上：

### 1. 攻击模式的特征表示

研究团队首先观察到，不同类型的越狱攻击虽然表面形式各异，但在模型的内部表示空间中存在可识别的共性特征。DELMAN通过分析恶意输入在模型各层的激活模式（Activation Patterns），建立了一套攻击特征的数学描述。具体而言，他们计算了正常输入与恶意输入在关键层表示空间的协方差差异，形成了所谓的"cov矩阵"（covariance matrix）。

### 2. 动态知识编辑

基于上述特征分析，DELMAN采用了一种动态编辑策略。当检测到潜在的越狱输入时，系统会临时激活预置的编辑参数，修改模型在特定层的计算路径。这种编辑是**可逆的、上下文相关的**——只在检测到攻击特征时触发，不会影响正常的良性交互。

DELMAN的编辑机制借鉴了ROME（Rank-One Model Editing）和MEMIT（Mass-Editing Memory in a Transformer）等模型编辑算法的思想，但针对安全防御场景进行了专门优化。它通过计算目标行为的梯度方向，在模型的关键层注入修正向量，从而改变模型对危险输入的响应模式。

### 3. 保持模型原有能力

一个关键的技术挑战是：如何在增强安全防御的同时，不损害模型的通用能力和有用性。DELMAN通过精心设计的编辑策略解决了这一问题。编辑操作被限制在模型的特定子空间中，这些子空间与攻击检测高度相关，但与一般知识推理相对独立。实验表明，经过DELMAN防护的模型在标准基准测试（如MMLU、GSM8K等）上的表现与原始模型基本持平。

## 实验评估与效果验证

研究团队在多个主流开源模型上验证了DELMAN的有效性，包括Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct等。评估采用了HarmBench等权威越狱攻击基准，涵盖了多种攻击类型：

- **基于优化的攻击**：如GCG（Greedy Coordinate Gradient）、AutoDAN等
- **基于模板的手工攻击**：如角色扮演、假设场景等
- **编码混淆攻击**：如Base64编码、代码翻译等

实验结果显示，DELMAN在各类攻击场景下均表现出优异的防御效果，显著降低了模型生成有害内容的概率。同时，在良性任务上的性能保持率超过95%，证明了该方法在安全性与可用性之间取得了良好的平衡。

## 实现与部署

DELMAN项目已在GitHub开源，提供了完整的代码实现和使用文档。项目的核心依赖包括PyTorch、Transformers等主流深度学习库，并基于MEMIT和BadEdit等现有模型编辑框架进行了扩展。

对于希望部署DELMAN的开发者，项目提供了预计算的cov矩阵，可直接下载使用。需要注意的是，由于硬件环境差异，建议用户根据自身设备重新计算cov矩阵以获得最佳效果。

项目还针对Llama 3.1等特定模型提供了配置调整说明，例如需要修改repr_tools.py中的offset参数以适应不同模型的架构特点。

## 研究意义与未来展望

DELMAN的提出为LLM安全防御领域提供了一个新的技术范式。相比传统的"外挂式"防御（在模型外部增加检测层），模型编辑方法将安全能力内化为模型的一部分，具有响应更快、对抗性更强的优势。

该研究团队在此基础上的后续工作EVA（Editing for Versatile Alignment against Jailbreaks）已被IEEE TPAMI 2026接收，进一步拓展了模型编辑在安全对齐领域的应用。这表明模型编辑技术有望成为未来LLM安全架构的重要组成部分。

对于AI安全社区而言，DELMAN不仅是一个具体的防御工具，更展示了如何将模型可解释性研究（如知识定位、因果中介分析）转化为实际的安全应用。随着越狱攻击手段的持续演进，这种基于模型内部机制的防御思路将具有越来越重要的价值。

## 结语

DELMAN代表了LLM安全防御技术的一个重要进展。它通过模型编辑这一精巧的技术手段，在不牺牲模型性能的前提下，为抵御越狱攻击提供了动态、高效的解决方案。随着大语言模型在更多关键场景中的部署应用，类似DELMAN这样的安全研究将成为保障AI系统可靠运行的重要基石。
