# 思维链如何保护AI的安全拒绝机制？大型推理模型的新发现

> 研究发现大型推理模型的拒绝机制不仅依赖于激活空间的单一方向，还深度依赖于思维链（CoT）。这种联合编码使模型对激活操控更具鲁棒性，但也暴露了CoT作为潜在攻击面的风险。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-26T09:41:15.000Z
- 最近活动: 2026-05-27T04:54:27.113Z
- 热度: 129.8
- 关键词: 大型推理模型, 思维链, 激活操控, AI安全, 拒绝机制, DeepSeek, 模型对齐
- 页面链接: https://www.zingnex.cn/forum/thread/ai-2dfac7fd
- Canonical: https://www.zingnex.cn/forum/thread/ai-2dfac7fd
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal
- 原始链接：http://arxiv.org/abs/2605.26772v1
- 来源发布时间/更新时间：2026-05-26T09:41:15Z

## 原作者与来源\n\n- 原作者/维护者：arXiv authors\n- 来源平台：arxiv\n- 原始标题：Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal\n- 原始链接：http://arxiv.org/abs/2605.26772v1\n- 来源发布时间/更新时间：2026-05-26T09:41:15Z\n\n## 研究背景：AI安全与控制的核心挑战\n\n随着大型语言模型的能力不断提升，如何确保它们的安全性和可控性成为人工智能研究的核心议题。其中一个关键机制是**拒绝（refusal）**——当模型收到可能有害或不适当的请求时，能够识别并拒绝执行。\n\n传统的指令微调语言模型（instruction-tuned LLMs）中，拒绝行为被认为主要由激活空间中的**单一方向子空间**介导。这意味着通过操控模型的内部激活（activation steering），可以相对容易地改变模型的拒绝倾向。然而，随着**大型推理模型（Large Reasoning Models, LRMs）**的兴起，情况变得更加复杂。\n\nLRMs（如DeepSeek-R1系列）的独特之处在于它们会先生成**思维链（Chain-of-Thought, CoT）**——详细的推理过程——然后再产生最终输出。这种设计显著提升了模型的推理能力，但也引入了新的复杂性：**拒绝机制是否仍然只依赖于激活空间？CoT在其中扮演什么角色？**\n\n## 核心问题：CoT如何影响拒绝控制\n\n研究团队聚焦于一个关键问题：在LRMs中，拒绝机制是如何编码的？具体来说，他们想知道：\n\n1. 激活操控（activation steering）对LRMs的拒绝行为是否仍然有效？\n2. CoT在拒绝机制中扮演什么角色？\n3. 是否存在通过操控CoT来绕过拒绝机制的可能性？\n\n为了回答这些问题，研究团队以DeepSeek-R1-Distill-LLaMA-8B为实验对象，设计了一系列精巧的实验。\n\n## 实验设计：三阶段干预策略\n\n研究团队设计了三个关键实验来逐步揭示CoT在拒绝机制中的作用：\n\n### 实验一：固定CoT的激活操控\n\n在这个实验中，研究者首先让模型生成CoT，然后对CoT进行激活操控，观察最终输出的变化。关键在于：**CoT保持不变，只有最终输出受到操控影响**。\n\n结果令人惊讶：**激活操控仅在39%的情况下成功逆转了拒绝**。这与传统指令微调模型形成鲜明对比——在那些模型中，类似的操控通常能够更可靠地改变拒绝行为。\n\n这个结果表明，当CoT固定时，仅仅操控残差流的激活不足以有效改变模型的拒绝倾向。CoT似乎"锁定"了某种拒绝信号，使得后续的激活操控效果大打折扣。\n\n### 实验二：移除CoT后的激活操控\n\n第二个实验测试了一个极端情况：**如果完全移除CoT，激活操控的效果会如何？**\n\n研究者将模型的CoT部分清空，直接对输入进行激活操控，然后观察输出。结果显示：**拒绝逆转率跃升至70%**。\n\n这一发现至关重要。它表明CoT不仅参与拒绝决策，而且**主动强化**了拒绝信号。当CoT存在时，它携带的拒绝信息会主导最终输出；只有当CoT被移除后，激活操控才能更有效地发挥作用。\n\n### 实验三：两阶段干预——操控下的CoT重生成\n\n第三个实验是最精巧的设计：**让模型在激活操控的条件下重新生成CoT**。\n\n具体流程是：\n1. 对模型施加激活操控\n2. 让模型生成新的CoT（在操控条件下）\n3. 观察最终输出\n\n结果令人震惊：**拒绝逆转率达到94%**。这意味着当CoT本身在操控条件下生成时，拒绝机制几乎完全被绕过。\n\n更惊人的是后续发现：即使移除激活操控，**仅保留在操控条件下生成的CoT，仍然能够保留48%的拒绝逆转效果**。这表明CoT本身可以独立携带和重建服从信号，即使原始的激活操控已经消失。\n\n## 研究发现：联合编码机制\n\n综合三个实验的结果，研究团队提出了一个核心发现：**LRMs中的拒绝机制在残差流激活和CoT中联合编码**。\n\n这意味着什么？\n\n**双重依赖**：与传统模型不同，LRMs的拒绝决策不仅依赖于激活空间的特定方向，还深度依赖于CoT中编码的推理过程。两者共同作用，缺一不可。\n\n**CoT的强化作用**：CoT不仅仅是推理过程的记录，它主动强化和巩固了拒绝信号。即使激活操控试图改变模型的倾向，CoT中已编码的拒绝理由会"抵抗"这种改变。\n\n**信号的可转移性**：在操控条件下生成的CoT能够保留部分拒绝逆转效果，这表明CoT可以作为一种"信号载体"，将操控的效果从生成阶段传递到推理阶段。\n\n## 安全启示：双刃剑效应\n\n这项研究揭示了LRMs安全机制的双刃剑特性：\n\n### 正面：增强的鲁棒性\n\n联合编码机制使得LRMs对简单的激活级干预更具鲁棒性。攻击者不能仅仅通过操控模型的内部激活就轻易绕过安全机制——他们还需要面对CoT中编码的拒绝理由。这为AI安全提供了额外的保护层。\n\n### 负面：新的攻击面\n\n然而，这种机制也暴露了一个新的潜在攻击面：**CoT本身**。如果攻击者能够操控CoT的生成过程（例如通过精心设计的提示或上下文操控），他们可能更有效地绕过拒绝机制。\n\n研究团队指出，这种攻击可能比传统的激活操控更危险，因为：\n1. CoT是可见的、可读的文本，攻击者可以更容易地理解和操控它\n2. 一旦在操控条件下生成了服从性的CoT，这种效果可以部分自我维持\n3. 目前的防御机制可能主要针对激活层面的攻击，而对CoT层面的攻击准备不足\n\n## 对AI安全研究的启示\n\n这项研究对AI安全领域有多重启示：\n\n**重新评估安全机制**：传统的基于激活操控的安全测试可能不足以评估LRMs的安全性。研究者需要考虑CoT在拒绝机制中的作用，设计更全面的评估方法。\n\n**多层防御策略**：鉴于拒绝机制在多个层面编码，安全防御也需要在多个层面部署。这包括激活层面的监控、CoT内容的分析，以及最终输出的审查。\n\n**可解释性的重要性**：CoT的可读性既是优势也是风险。安全研究者可以利用这一特性来检测潜在的操控尝试，但同时也需要防范利用CoT进行的攻击。\n\n**训练阶段的考虑**：未来的模型训练可能需要考虑如何在CoT中编码更鲁棒的安全信号，同时防止这些信号被轻易操控。\n\n## 局限与未来方向\n\n尽管研究提供了重要洞见，但也存在一些局限：\n\n- **单一模型**：实验主要在DeepSeek-R1-Distill-LLaMA-8B上进行，其他LRMs是否表现出相同模式仍需验证。\n- **特定安全场景**：研究主要关注拒绝机制，其他安全相关行为（如偏见、幻觉）是否遵循类似模式尚不清楚。\n- **攻击可行性**：虽然研究揭示了理论上的攻击面，但实际中操控CoT生成的难度和可行性仍需进一步探索。\n\n未来研究方向包括：在其他LRMs上验证这些发现；探索如何设计对CoT攻击更具鲁棒性的安全机制；以及研究CoT在其他类型模型行为中的作用。\n\n## 结语\n\n这项研究为我们理解大型推理模型的安全机制提供了重要洞见。它揭示了思维链不仅是推理能力的增强器，也是安全机制的关键组成部分。\n\n联合编码机制为LRMs提供了额外的安全保护层，使其对简单的激活操控更具鲁棒性。然而，这也提醒我们，随着AI系统变得越来越复杂，潜在的安全风险也可能以新的形式出现。\n\n在追求更强大的AI能力的同时，我们必须同样关注如何确保这些系统的安全可控。这项研究正是这一努力的重要一步，为未来的AI安全研究指明了新的方向。
