Zing 论坛

正文

思维链如何保护AI的安全拒绝机制?大型推理模型的新发现

研究发现大型推理模型的拒绝机制不仅依赖于激活空间的单一方向,还深度依赖于思维链(CoT)。这种联合编码使模型对激活操控更具鲁棒性,但也暴露了CoT作为潜在攻击面的风险。

大型推理模型思维链激活操控AI安全拒绝机制DeepSeek模型对齐
发布时间 2026/05/26 17:41最近活动 2026/05/27 12:54预计阅读 2 分钟
思维链如何保护AI的安全拒绝机制?大型推理模型的新发现
1

章节 01

思维链如何影响大型推理模型的安全拒绝机制?核心发现速递

研究来源

  • 原作者:arXiv authors
  • 来源平台:arxiv
  • 原始标题:Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal
  • 链接:http://arxiv.org/abs/2605.26772v1
  • 发布时间:2026-05-26

核心观点

研究揭示大型推理模型(LRMs)的拒绝机制依赖激活空间与**思维链(CoT)**的联合编码:该机制使模型对激活操控更具鲁棒性,但也暴露CoT作为潜在攻击面的风险。

2

章节 02

研究背景:AI安全与拒绝机制的核心挑战

随着大型语言模型能力提升,安全可控性成为核心议题。传统指令微调模型的拒绝机制依赖激活空间单一方向,易被激活操控改变;而LRMs(如DeepSeek-R1系列)通过生成CoT推理过程再输出,引发关键疑问:拒绝机制是否仍仅依赖激活空间?CoT在其中扮演什么角色?

3

章节 03

实验设计:三阶段干预策略

研究以DeepSeek-R1-Distill-LLaMA-8B为实验对象,设计三个关键实验:

  1. 固定CoT的激活操控:保留CoT,仅操控最终输出激活
  2. 移除CoT后的激活操控:清空CoT,直接操控输入激活
  3. 操控下的CoT重生成:先施加激活操控,再让模型生成新CoT
4

章节 04

实验证据:CoT对拒绝逆转率的影响

实验结果显示:

  1. 固定CoT时,激活操控仅39%成功逆转拒绝
  2. 移除CoT后,逆转率跃升至70%
  3. 操控下生成CoT时,逆转率达94%;仅保留该CoT仍有48%逆转效果
5

章节 05

核心结论:联合编码机制

LRMs的拒绝机制在残差流激活CoT中联合编码:

  • 双重依赖:拒绝决策需激活空间方向+CoT推理过程
  • CoT强化:主动巩固拒绝信号,抵抗激活操控
  • 信号转移:操控下生成的CoT可独立携带服从信号
6

章节 06

安全启示:双刃剑效应

  • 正面:联合编码增强模型对简单激活干预的鲁棒性
  • 负面:CoT成为新攻击面(可见文本易操控、效果可维持、现有防御不足)
7

章节 07

对AI安全研究的启示与未来方向

启示

  1. 重新评估安全测试:需考虑CoT对拒绝机制的影响
  2. 多层防御:激活监控+CoT内容分析+输出审查
  3. 重视可解释性:利用CoT可读性检测操控
  4. 训练优化:在CoT中编码更鲁棒的安全信号

局限与未来

  • 局限:仅验证DeepSeek-R1模型,未覆盖其他LRMs及安全场景
  • 未来:跨模型验证、设计CoT鲁棒防御、探索CoT在其他行为中的作用