章节 01
CDUR现象深度解析:大语言模型推理预算与过度自信的非线性关系
本文深入探讨CDUR(Calibration Drift Under Reasoning)现象,揭示大语言模型推理预算增加时校准误差(ECE)呈现先改善后恶化的U型曲线规律。核心发现包括:1)推理预算与校准性能非单调相关;2)假设锁定模型解释了过度自信的机制;3)提出CABStop校准感知停止规则以动态优化推理预算。研究基于Llama系列模型实验,对LLM评估与部署具有重要指导意义。
正文
本文深入解析CDUR(Calibration Drift Under Reasoning)现象,揭示增加大语言模型推理预算时校准误差呈现非单调变化的规律,并介绍CABStop校准感知停止规则
章节 01
本文深入探讨CDUR(Calibration Drift Under Reasoning)现象,揭示大语言模型推理预算增加时校准误差(ECE)呈现先改善后恶化的U型曲线规律。核心发现包括:1)推理预算与校准性能非单调相关;2)假设锁定模型解释了过度自信的机制;3)提出CABStop校准感知停止规则以动态优化推理预算。研究基于Llama系列模型实验,对LLM评估与部署具有重要指导意义。
章节 02
传统观点认为增加LLM推理预算可同时提升准确性与校准性,但CDUR研究团队观察到校准漂移现象:推理预算增加时,期望校准误差(ECE)呈非单调变化。CDUR被定义为:随推理预算B增加,ECE(B)函数呈现U型轨迹,存在最优预算点,超过后校准性能下降。实验验证于Llama-3.1-8B和Llama-3.3-70B模型,涵盖4种预算级别与21类推理陷阱问题。
章节 03
为解释CDUR,研究提出假设锁定模型:自回归推理中,模型早期开放考虑多路径,随步骤增加逐渐锁定某假设。若锁定错误假设,后续步骤会强化错误信念导致过度自信。现象在"light"预算级别最明显:模型形成强烈信念但未达自我纠正的"heavy"级别,故ECE在light达峰值,heavy时下降。
章节 04
研究构建含25个推理陷阱问题的数据集,覆盖计数、集合论、空间推理等15+类别(陷阱题对人类直觉具迷惑性)。实验采用多种子运行(seeds1/2/3)确保统计显著性,使用TrapQuestion数据类管理问题(含ID、类别、文本、答案)。评估指标包括ECE、过度自信差距、准确率等。
章节 05
Llama-3.1-8B实验结果显示CDUR现象:
| 预算级别 | ECE(均值±标准差) | 过度自信差距 | 准确率 |
|---|---|---|---|
| none | 0.0436±0.015 | +0.4930 | 0.4610 |
| light | 0.1040±0.034 | +0.2490 | 0.7320 |
| medium | 0.0496±0.049 | +0.3360 | 0.6530 |
| heavy | 0.0145±0.005 | +0.2450 | 0.7390 |
| ECE从none到light上升,medium下降,heavy最低;准确率在light大幅提升但校准最差,说明准确率与校准性存在权衡。 |
章节 06
基于CDUR理解,提出CABStop算法:动态监测模型置信度与辅助准确率估计的差异,分歧超阈值时停止推理。核心思想是根据问题难度与实时表现动态分配预算,而非固定预算。算法通过自一致性采样估计辅助准确率,在检查点评估,当置信度与辅助准确率差距超delta时触发停止,平衡准确率与校准性。
章节 07
CDUR研究对LLM评估(需兼顾准确率与校准性)、部署(权衡预算与校准)、模型设计(缓解假设锁定)具指导意义。未来方向包括:探索不同模型架构对CDUR的敏感性、开发更精细的校准感知策略、扩展CABStop到多模态/交互式场景。