Zing 论坛

正文

思维链中的隐藏错误感知:模型知道自己在犯错,但选择保持沉默

研究发现大语言模型在思维链推理中能够内部检测到自己的错误(隐藏状态预测准确率0.95 AUROC),但外部表达的置信度却与正确推理几乎相同。这种信号是诊断性的而非因果性的,无法通过现有干预方法用于纠正错误。

chain-of-thoughtmechanistic interpretabilityerror detectionhidden stateslinear probingAI alignment
发布时间 2026/05/10 20:26最近活动 2026/05/12 12:21预计阅读 2 分钟
思维链中的隐藏错误感知:模型知道自己在犯错,但选择保持沉默
1

章节 01

思维链推理中的隐藏错误感知:模型内部知错却外部自信

本研究揭示大语言模型在思维链推理中存在隐藏错误感知现象:模型内部能检测自身推理错误(隐藏状态预测准确率达0.95 AUROC),但外部表达的置信度与正确推理几乎无差异。该信号仅具诊断性(可判断推理是否正确),无因果性(无法通过现有干预纠正错误),挑战了思维链推理反映内部计算的假设。

2

章节 02

背景:思维链推理的假设与研究挑战

思维链(CoT)提示的基本假设是生成的推理过程反映模型内部计算。但本研究发现此假设不成立:大语言模型能内部检测推理错误,却在外部表达时对错误推理表现出高度自信,这一现象为AI可解释性研究提出新问题。

3

章节 03

实验证据:隐藏状态蕴含丰富错误检测信息

通过在模型隐藏状态上训练线性探针,研究发现:1. 预测推理轨迹正确性的AUROC达0.95;2. 即使在第一个推理步骤,准确率也达0.79。这表明模型内部表示包含推理质量信息,且早期即存在。

4

章节 04

外部置信度与文本分类器的盲区

模型外部表达的置信度几乎无法区分正确与错误推理:

推理类型 口头化置信度(满分5分)
正确推理 4.87
错误推理 4.55

两者差距仅0.32分。基于文本表面的分类器AUROC仅0.59,远低于隐藏状态探针的0.95,说明生成文本中无此内部信息。

5

章节 05

跨模型验证:隐藏错误感知是普遍现象

研究在多模型家族(Qwen、Llama、Phi系列)、1.5B到72B参数规模及强化学习训练模型(如DeepSeek-R1 AUROC 0.852)中验证,该现象稳定存在。

6

章节 06

干预尝试与核心结论

测试激活引导、探针引导Best-of-N、自我纠正、激活修补四种干预方法均失败。核心结论:隐藏错误感知信号是诊断性(可判断推理是否正确)而非因果性(无法改变推理结果)。

7

章节 07

理论与实践意义:可解释性边界与应用方向

理论上,推理错误表示与事实知识表示不同(前者不可编辑),划定机制可解释性边界;实践上,可用于错误检测、人机协作、训练数据筛选及模型评估。

8

章节 08

未来研究方向:信号本质与干预可能性

未来可探索:1. 隐藏信号的神经基础;2. 训练动态对信号的影响;3. 跨任务泛化性;4. 更复杂的干预方法。