章节 01
思维链推理中的隐藏错误感知:模型内部知错却外部自信
本研究揭示大语言模型在思维链推理中存在隐藏错误感知现象:模型内部能检测自身推理错误(隐藏状态预测准确率达0.95 AUROC),但外部表达的置信度与正确推理几乎无差异。该信号仅具诊断性(可判断推理是否正确),无因果性(无法通过现有干预纠正错误),挑战了思维链推理反映内部计算的假设。
正文
研究发现大语言模型在思维链推理中能够内部检测到自己的错误(隐藏状态预测准确率0.95 AUROC),但外部表达的置信度却与正确推理几乎相同。这种信号是诊断性的而非因果性的,无法通过现有干预方法用于纠正错误。
章节 01
本研究揭示大语言模型在思维链推理中存在隐藏错误感知现象:模型内部能检测自身推理错误(隐藏状态预测准确率达0.95 AUROC),但外部表达的置信度与正确推理几乎无差异。该信号仅具诊断性(可判断推理是否正确),无因果性(无法通过现有干预纠正错误),挑战了思维链推理反映内部计算的假设。
章节 02
思维链(CoT)提示的基本假设是生成的推理过程反映模型内部计算。但本研究发现此假设不成立:大语言模型能内部检测推理错误,却在外部表达时对错误推理表现出高度自信,这一现象为AI可解释性研究提出新问题。
章节 03
通过在模型隐藏状态上训练线性探针,研究发现:1. 预测推理轨迹正确性的AUROC达0.95;2. 即使在第一个推理步骤,准确率也达0.79。这表明模型内部表示包含推理质量信息,且早期即存在。
章节 04
模型外部表达的置信度几乎无法区分正确与错误推理:
| 推理类型 | 口头化置信度(满分5分) |
|---|---|
| 正确推理 | 4.87 |
| 错误推理 | 4.55 |
两者差距仅0.32分。基于文本表面的分类器AUROC仅0.59,远低于隐藏状态探针的0.95,说明生成文本中无此内部信息。
章节 05
研究在多模型家族(Qwen、Llama、Phi系列)、1.5B到72B参数规模及强化学习训练模型(如DeepSeek-R1 AUROC 0.852)中验证,该现象稳定存在。
章节 06
测试激活引导、探针引导Best-of-N、自我纠正、激活修补四种干预方法均失败。核心结论:隐藏错误感知信号是诊断性(可判断推理是否正确)而非因果性(无法改变推理结果)。
章节 07
理论上,推理错误表示与事实知识表示不同(前者不可编辑),划定机制可解释性边界;实践上,可用于错误检测、人机协作、训练数据筛选及模型评估。
章节 08
未来可探索:1. 隐藏信号的神经基础;2. 训练动态对信号的影响;3. 跨任务泛化性;4. 更复杂的干预方法。