# 激活一致性训练：保护推理模型免受自适应攻击的新防线

> 通过激活一致性训练（ACT）方法，研究人员发现监督大语言模型的内部表示可以有效防御对抗性越狱攻击和提示注入攻击，且对良性输入影响最小。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-27T13:33:26.000Z
- 最近活动: 2026-05-28T05:23:43.714Z
- 热度: 135.2
- 关键词: 推理模型, 对抗性攻击, 越狱攻击, 提示注入, 一致性训练, 激活一致性, 模型安全, 思维链
- 页面链接: https://www.zingnex.cn/forum/thread/llm-arxiv-2605-28467v1
- Canonical: https://www.zingnex.cn/forum/thread/llm-arxiv-2605-28467v1
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：Mitigating Adaptive Attacks against Reasoning Models with Activation Consistency Training
- 原始链接：http://arxiv.org/abs/2605.28467v1
- 来源发布时间/更新时间：2026-05-27T13:33:26Z

## 原作者与来源\n\n- 原作者/维护者：arXiv authors\n- 来源平台：arxiv\n- 原始标题：Mitigating Adaptive Attacks against Reasoning Models with Activation Consistency Training\n- 原始链接：http://arxiv.org/abs/2605.28467v1\n- 来源发布时间/更新时间：2026-05-27T13:33:26Z\n\n## 推理模型的安全挑战\n\n随着大型语言模型（LLMs）推理能力的不断增强，它们生成的思维链（Chain-of-Thought）变得越来越长、越来越复杂。这种复杂性虽然提升了模型的推理质量，但也为对抗性攻击开辟了新的攻击面。\n\n对抗性越狱攻击（Adversarial Jailbreaks）和提示注入攻击（Prompt Injection）是两类主要的威胁。攻击者通过精心构造的对抗性提示，试图绕过模型的安全对齐机制，诱导模型生成有害内容。传统的防御方法主要针对模型的最终输出，但在推理模型中，攻击可能发生在思维链的任何阶段。\n\n## 一致性训练：核心思想\n\n一致性训练（Consistency Training）是一类微调目标函数，其核心思想是强制模型在干净提示和对抗性改写提示上表现出相同的行为。这种方法假设：如果模型能够识别出对抗性改写并不会改变提示的语义本质，那么它就应该对两者做出一致的响应。\n\n研究团队主要探索了两种一致性训练的变体：\n\n### 输出级一致性训练（BCT）\n\nBCT（Behavioral Consistency Training）在输出层面实施一致性约束。它要求模型对于干净提示和对抗性改写提示生成相同的最终输出。这种方法直观且易于实现，但可能忽略了模型内部推理过程中的微妙差异。\n\n### 激活级一致性训练（ACT）\n\nACT（Activation Consistency Training）是本文的重点，它将一致性约束深入到模型的内部激活表示层面。ACT要求模型在处理干净提示和对抗性改写提示时，其内部神经元的激活模式保持一致。\n\nACT的关键优势在于：\n\n- **仅需自监督数据**：只需要成对的干净提示和包装后的提示，无需人工标注\n- **内部表示监督**：直接约束模型的内部状态，而非仅仅是最终输出\n- **更好的可解释性**：激活层面的变化更容易分析和理解\n\n## ACT的技术机制\n\n研究团队通过实验发现，ACT防御机制在激活空间中表现为一种近似线性的偏移。具体来说：\n\n### 线性偏移的发现\n\n在助手回合边界（assistant-turn boundary）处，ACT训练后的模型表现出明显的激活空间线性偏移。这种偏移编码了模型对越狱攻击的防御机制。\n\n更重要的是，研究人员能够从ACT训练后的模型中提取出一个单一的"转向方向"（steering direction）。通过沿着这个方向调整模型的激活，可以控制模型对有害请求的拒绝行为，同时对良性输入的影响最小。\n\n### 对预填充攻击的鲁棒性\n\nACT展现出令人惊讶的鲁棒性：即使攻击者将模型的思维链替换为来自未防御基础模型的顺从轨迹（compliant trace），ACT训练的模型仍然能够识别出攻击并拒绝响应。这表明ACT学到的防御机制不仅仅是基于思维链的表面特征，而是深入到了模型的内部表示层面。\n\n## 实验评估与对比\n\n研究团队在五个推理模型上评估了BCT和ACT的效果，主要发现包括：\n\n### 防御效果对比\n\n- ACT在防御提示注入攻击方面与其他基于训练的方法具有竞争力\n- 在越狱攻击场景下，ACT表现出比BCT更强的鲁棒性\n- ACT对自适应攻击（adaptive attacks）的抵抗能力尤为突出\n\n### 对良性输入的影响\n\n一个重要的考量是防御机制是否会损害模型的正常功能。实验表明，ACT在提供有效防御的同时，对良性输入的影响最小，这使其在实际部署中更具可行性。\n\n## 实际意义与启示\n\n这项研究为推理模型的安全训练提供了新的视角：\n\n### 内部表示监督的价值\n\n传统上，安全训练主要关注模型的输出行为。这项研究表明，监督内部表示是一种" surprisingly effective and interpretable"（令人惊讶地有效且可解释）的方法。这为未来设计更鲁棒的安全机制提供了新的方向。\n\n### 推理模型的特殊考量\n\n推理模型的思维链特性使得传统的输出级防御可能不够充分。ACT通过在激活层面实施一致性约束，能够防御那些试图操纵思维链的攻击，这对推理模型的安全部署具有重要意义。\n\n### 可解释性的提升\n\nACT提供的线性偏移和转向方向为理解模型的防御机制提供了可解释的视角。这种可解释性不仅有助于研究人员理解模型行为，也为调试和改进安全机制提供了工具。\n\n## 局限与未来方向\n\n尽管ACT展现出 promising 的效果，研究也存在一些局限：\n\n- 实验主要在特定的攻击场景下进行，更广泛的攻击向量有待测试\n- ACT的训练成本和对模型性能的影响需要进一步评估\n- 转向方向的提取和应用方法可以进一步优化\n\n未来的研究可以探索将ACT与其他防御机制结合，以及在更多类型的模型和任务上验证其有效性。\n\n## 结论\n\n激活一致性训练（ACT）为推理模型的安全防护提供了一种新的、基于内部表示的方法。通过在激活空间实施一致性约束，ACT不仅能够有效防御对抗性攻击，还保持了良好的可解释性和对良性输入的低影响。这项工作为构建更安全、更可靠的推理模型迈出了重要一步。
