Zing 论坛

正文

CDUR:大语言模型思维链预算如何引发过度自信——校准漂移现象深度解析

本文深入解析CDUR(Calibration Drift Under Reasoning)现象,揭示增加大语言模型推理预算时校准误差呈现非单调变化的规律,并介绍CABStop校准感知停止规则

大语言模型思维链校准漂移CDUR过度自信ECECABStop推理预算Llama机器学习
发布时间 2026/06/11 15:15最近活动 2026/06/11 15:19预计阅读 2 分钟
CDUR:大语言模型思维链预算如何引发过度自信——校准漂移现象深度解析
1

章节 01

CDUR现象深度解析:大语言模型推理预算与过度自信的非线性关系

本文深入探讨CDUR(Calibration Drift Under Reasoning)现象,揭示大语言模型推理预算增加时校准误差(ECE)呈现先改善后恶化的U型曲线规律。核心发现包括:1)推理预算与校准性能非单调相关;2)假设锁定模型解释了过度自信的机制;3)提出CABStop校准感知停止规则以动态优化推理预算。研究基于Llama系列模型实验,对LLM评估与部署具有重要指导意义。

2

章节 02

研究背景与CDUR现象定义

传统观点认为增加LLM推理预算可同时提升准确性与校准性,但CDUR研究团队观察到校准漂移现象:推理预算增加时,期望校准误差(ECE)呈非单调变化。CDUR被定义为:随推理预算B增加,ECE(B)函数呈现U型轨迹,存在最优预算点,超过后校准性能下降。实验验证于Llama-3.1-8B和Llama-3.3-70B模型,涵盖4种预算级别与21类推理陷阱问题。

3

章节 03

CDUR机制:假设锁定模型解释

为解释CDUR,研究提出假设锁定模型:自回归推理中,模型早期开放考虑多路径,随步骤增加逐渐锁定某假设。若锁定错误假设,后续步骤会强化错误信念导致过度自信。现象在"light"预算级别最明显:模型形成强烈信念但未达自我纠正的"heavy"级别,故ECE在light达峰值,heavy时下降。

4

章节 04

实验设计与数据集构建

研究构建含25个推理陷阱问题的数据集,覆盖计数、集合论、空间推理等15+类别(陷阱题对人类直觉具迷惑性)。实验采用多种子运行(seeds1/2/3)确保统计显著性,使用TrapQuestion数据类管理问题(含ID、类别、文本、答案)。评估指标包括ECE、过度自信差距、准确率等。

5

章节 05

核心实验结果分析

Llama-3.1-8B实验结果显示CDUR现象:

预算级别 ECE(均值±标准差) 过度自信差距 准确率
none 0.0436±0.015 +0.4930 0.4610
light 0.1040±0.034 +0.2490 0.7320
medium 0.0496±0.049 +0.3360 0.6530
heavy 0.0145±0.005 +0.2450 0.7390
ECE从none到light上升,medium下降,heavy最低;准确率在light大幅提升但校准最差,说明准确率与校准性存在权衡。
6

章节 06

CABStop:校准感知的动态停止规则

基于CDUR理解,提出CABStop算法:动态监测模型置信度与辅助准确率估计的差异,分歧超阈值时停止推理。核心思想是根据问题难度与实时表现动态分配预算,而非固定预算。算法通过自一致性采样估计辅助准确率,在检查点评估,当置信度与辅助准确率差距超delta时触发停止,平衡准确率与校准性。

7

章节 07

研究意义与未来方向

CDUR研究对LLM评估(需兼顾准确率与校准性)、部署(权衡预算与校准)、模型设计(缓解假设锁定)具指导意义。未来方向包括:探索不同模型架构对CDUR的敏感性、开发更精细的校准感知策略、扩展CABStop到多模态/交互式场景。