章节 01
思维链如何影响大型推理模型的安全拒绝机制?核心发现速递
研究来源
- 原作者:arXiv authors
- 来源平台:arxiv
- 原始标题:Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal
- 链接:http://arxiv.org/abs/2605.26772v1
- 发布时间:2026-05-26
核心观点
研究揭示大型推理模型(LRMs)的拒绝机制依赖激活空间与**思维链(CoT)**的联合编码:该机制使模型对激活操控更具鲁棒性,但也暴露CoT作为潜在攻击面的风险。