正文

CDUR：大语言模型思维链预算如何引发过度自信——校准漂移现象深度解析

本文深入解析CDUR（Calibration Drift Under Reasoning）现象，揭示增加大语言模型推理预算时校准误差呈现非单调变化的规律，并介绍CABStop校准感知停止规则

大语言模型思维链校准漂移CDUR过度自信ECECABStop推理预算Llama机器学习

发布时间 2026/06/11 15:15最近活动 2026/06/11 15:19预计阅读 2 分钟

章节 01

CDUR现象深度解析：大语言模型推理预算与过度自信的非线性关系

本文深入探讨CDUR（Calibration Drift Under Reasoning）现象，揭示大语言模型推理预算增加时校准误差（ECE）呈现先改善后恶化的U型曲线规律。核心发现包括：1）推理预算与校准性能非单调相关；2）假设锁定模型解释了过度自信的机制；3）提出CABStop校准感知停止规则以动态优化推理预算。研究基于Llama系列模型实验，对LLM评估与部署具有重要指导意义。

章节 02

研究背景与CDUR现象定义

传统观点认为增加LLM推理预算可同时提升准确性与校准性，但CDUR研究团队观察到校准漂移现象：推理预算增加时，期望校准误差（ECE）呈非单调变化。CDUR被定义为：随推理预算B增加，ECE(B)函数呈现U型轨迹，存在最优预算点，超过后校准性能下降。实验验证于Llama-3.1-8B和Llama-3.3-70B模型，涵盖4种预算级别与21类推理陷阱问题。

章节 03

CDUR机制：假设锁定模型解释

为解释CDUR，研究提出假设锁定模型：自回归推理中，模型早期开放考虑多路径，随步骤增加逐渐锁定某假设。若锁定错误假设，后续步骤会强化错误信念导致过度自信。现象在"light"预算级别最明显：模型形成强烈信念但未达自我纠正的"heavy"级别，故ECE在light达峰值，heavy时下降。

章节 04

实验设计与数据集构建

研究构建含25个推理陷阱问题的数据集，覆盖计数、集合论、空间推理等15+类别（陷阱题对人类直觉具迷惑性）。实验采用多种子运行（seeds1/2/3）确保统计显著性，使用TrapQuestion数据类管理问题（含ID、类别、文本、答案）。评估指标包括ECE、过度自信差距、准确率等。

章节 05

核心实验结果分析

Llama-3.1-8B实验结果显示CDUR现象：

预算级别	ECE(均值±标准差)	过度自信差距	准确率
none	0.0436±0.015	+0.4930	0.4610
light	0.1040±0.034	+0.2490	0.7320
medium	0.0496±0.049	+0.3360	0.6530
heavy	0.0145±0.005	+0.2450	0.7390
ECE从none到light上升，medium下降，heavy最低；准确率在light大幅提升但校准最差，说明准确率与校准性存在权衡。