正文

CDUR：思维链预算如何导致大语言模型的过度自信

本文介绍CDUR（Calibration Drift Under Reasoning）现象，揭示增加大语言模型的推理预算会先改善后恶化模型校准度，形成U型ECE曲线，并提供CABStop算法作为解决方案。

大语言模型思维链模型校准过度自信推理预算CDURCABStop机器学习自然语言处理

发布时间 2026/06/11 15:15最近活动 2026/06/11 15:20预计阅读 12 分钟

章节 01

导读 / 主楼：CDUR：思维链预算如何导致大语言模型的过度自信

章节 02

原作者与来源

原作者/维护者：prakulhiremath
来源平台：github
原始标题：CDUR
原始链接：https://github.com/prakulhiremath/CDUR
来源发布时间/更新时间：2026-06-11T07:15:30Z

CDUR：思维链预算如何导致大语言模型的过度自信\n\n## 原作者与来源\n\n- 原作者/维护者：Prakul Sunil Hiremath, Harshit R Hiremath\n- 来源平台：GitHub\n- 原始标题：CDUR: Calibration Drift Under Reasoning\n- 原始链接：https://github.com/prakulhiremath/CDUR\n- 发布时间：2025年（论文发表），2026年4月23日（代码仓库v1.0发布）\n\n## 研究背景：大语言模型的校准困境\n\n大语言模型（LLM）近年来在各类推理任务中展现出惊人的能力，尤其是当引入"思维链"（Chain-of-Thought, CoT）提示技术后，模型能够逐步展开推理过程，显著提升复杂问题的解决准确率。然而，一个长期被忽视的问题是：模型对自己的预测有多自信？这种自信是否准确？\n\n在机器学习领域，"校准度"（Calibration）衡量的是模型置信度与其实际准确率之间的一致性。一个完美校准的模型，当它说"我有90%的把握"时，应该有90%的概率是正确的。理想情况下，随着推理预算（即允许的推理token数量）的增加，模型的校准度应该单调改善或至少保持稳定。\n\n但CDUR研究揭示了一个令人意外的现象：增加推理预算并非总是好事。在某些情况下，更多的推理步骤反而会让模型变得过度自信，导致校准度下降。\n\n## CDUR现象：U型校准漂移曲线\n\nCDUR（Calibration Drift Under Reasoning，推理下的校准漂移）是论文作者提出的核心概念。它描述了一个反直觉的现象：随着推理预算的增加，模型的期望校准误差（Expected Calibration Error, ECE）呈现先上升后下降的U型轨迹。\n\n具体来说，当推理预算从"无"（none）增加到"轻度"（light）时，ECE反而上升，意味着校准度恶化；只有当预算进一步增加到"重度"（heavy）时，ECE才显著下降，校准度改善。这一发现挑战了"更多推理总是更好"的普遍假设。\n\n研究团队在Llama-3.1-8B和Llama-3.3-70B两个模型上进行了验证，涵盖了四种推理预算设置（none、light、medium、heavy）和21个推理陷阱问题类别。实验结果清晰地展示了这一U型曲线：\n\n- 无推理预算（none）：ECE为0.0436，过度自信差距（OG）高达+0.493，准确率仅46.1%\n- 轻度推理预算（light）：ECE上升至0.1040，OG下降至+0.249，但准确率提升至73.2%\n- 中度推理预算（medium）：ECE回落至0.0496，准确率略有下降至65.3%\n- 重度推理预算（heavy）：ECE降至最低0.0145，准确率达到73.9%\n\n这一非单调的ECE轨迹是CDUR的标志性特征。\n\n## 假设锁定模型：过度自信的机制解释\n\n为了解释CDUR现象，论文提出了"假设锁定模型"（Hypothesis Lock-In Model）。这是一个关于自回归推理在承诺机制下的形式化模型，试图从机理层面解释为什么适度的推理预算会导致过度自信。\n\n核心思想是：当模型被允许进行有限的推理时，它会倾向于过早地锁定在某个假设上，并随着后续推理步骤的展开，不断强化这一初始假设，即使该假设可能是错误的。这种"锁定效应"导致模型在轻度推理预算下产生极高的置信度（接近1.0），但准确率并未同步提升，从而产生过度自信。\n\n只有当推理预算足够大时，模型才有足够的"空间"来修正初始假设，探索更多可能性，最终达到更好的校准状态。这一模型为理解大语言模型的推理行为提供了新的视角。\n\n## CABStop：校准感知的推理停止策略\n\n针对CDUR问题，论文提出了CABStop算法（Calibration-Aware Budget Stop），这是一种校准感知的优化停止规则。其核心思想是：当模型的置信度与辅助准确率估计之间的差距超过阈值时，主动停止推理。\n\nCABStop的工作流程如下：\n\n1. 定期检查：在推理过程中，每隔固定数量的token（如128个）进行一次检查\n2. 置信度提取：获取当前候选答案及其置信度\n3. 辅助准确率估计：通过模拟自一致性（self-consistency）方法，从多个采样中估计辅助准确率\n4. 停止判断：如果置信度减去辅助准确率大于预设阈值delta（默认0.10），则停止推理并返回答案\n5. 强制上限：如果达到最大预算（如2048个token），则强制停止\n\n这种方法的优势在于，它不需要等待推理完成就能识别出过度自信的情况，从而在实际应用中节省计算资源，同时避免模型陷入过度自信的陷阱。\n\n## 实验验证与代码实现\n\n研究团队提供了完整的复现管道，包括：\n\n- 数据集：25个手工设计的推理陷阱问题，涵盖15个类别，包括计数、集合论、空间推理、语义理解、概率、三段论、代数、模运算、运算符优先级、百分比、复合推理、逆否命题、锚定效应、组合数学、相对运动、条件概率、指数、混合问题、模式识别等\n\n- 评估指标：ECE（期望校准误差）、过度自信差距（Overconfidence Gap）、错误且自信的响应数量\n\n- 模拟器：一个确定性的模拟器，校准以匹配Llama-3.1-8B的实证动态，支持在无GPU和API密钥的情况下运行复现\n\n代码仓库采用模块化设计，包含数据加载器、评估器、指标计算和CABStop算法实现。用户可以通过简单的命令运行完整管道：\n\n`bash\ngit clone https://github.com/prakulhiremath/CDUR.git\ncd CDUR\npip install -r requirements.txt\npython run_pipeline.py\n`\n\n对于希望使用真实LLM API的用户，可以替换`src/evaluators.py`中的模拟函数为实际的推理端点调用。\n\n## 实际意义与未来展望\n\nCDUR研究具有重要的实际意义。首先，它提醒开发者和研究者，在部署大语言模型时，不能简单地假设更多的推理预算总是更好。适度预算可能导致过度自信，这在高风险应用（如医疗诊断、法律咨询、金融决策）中尤为危险。\n\n其次，CABStop算法提供了一个实用的解决方案，可以在不牺牲准确率的情况下，通过智能停止策略改善校准度，同时节省计算成本。这对于资源受限的应用场景尤其有价值。\n\n未来的研究方向可能包括：\n\n- 在更多模型架构和规模上验证CDUR现象\n- 探索不同的校准感知停止策略\n- 研究如何将CDUR框架应用于其他推理技术，如树状搜索、反思机制等\n- 开发实时校准监控工具，帮助用户识别和避免过度自信\n\n## 结语\n\nCDUR研究揭示了大语言模型推理中一个微妙但重要的问题：推理预算与校准度之间的关系并非单调。通过提出假设锁定模型和CABStop算法，研究者为理解和解决这一问题提供了新的工具和视角。随着大语言模型在越来越多关键领域得到应用，对其校准行为的深入理解将变得愈发重要。\n\n## 引用信息\n\n`\n@misc{hiremath2025cdur,\n title = {Calibration Drift Under Reasoning: How Chain-of-Thought Budgets\n Induce Overconfidence in Large Language Models},\n author = {Hiremath, Prakul Sunil and Hiremath, Harshit R},\n year = {2025},\n doi = {10.5281/zenodo.19709379},\n url = {https://doi.org/10.5281/zenodo.19709379}\n}\n`

章节 03

补充观点 1

原作者与来源

原作者/维护者：prakulhiremath
来源平台：github
原始标题：CDUR
原始链接：https://github.com/prakulhiremath/CDUR
来源发布时间/更新时间：2026-06-11T07:15:30Z CDUR：思维链预算如何导致大语言模型的过度自信\n\n原作者与来源\n\n- 原作者/维护者：Prakul Sunil Hiremath, Harshit R Hiremath\n- 来源平台：GitHub\n- 原始标题：CDUR: Calibration Drift Under Reasoning\n- 原始链接：https://github.com/prakulhiremath/CDUR\n- 发布时间：2025年（论文发表），2026年4月23日（代码仓库v1.0发布）\n\n研究背景：大语言模型的校准困境\n\n大语言模型（LLM）近年来在各类推理任务中展现出惊人的能力，尤其是当引入"思维链"（Chain-of-Thought, CoT）提示技术后，模型能够逐步展开推理过程，显著提升复杂问题的解决准确率。然而，一个长期被忽视的问题是：模型对自己的预测有多自信？这种自信是否准确？\n\n在机器学习领域，"校准度"（Calibration）衡量的是模型置信度与其实际准确率之间的一致性。一个完美校准的模型，当它说"我有90%的把握"时，应该有90%的概率是正确的。理想情况下，随着推理预算（即允许的推理token数量）的增加，模型的校准度应该单调改善或至少保持稳定。\n\n但CDUR研究揭示了一个令人意外的现象：增加推理预算并非总是好事。在某些情况下，更多的推理步骤反而会让模型变得过度自信，导致校准度下降。\n\nCDUR现象：U型校准漂移曲线\n\nCDUR（Calibration Drift Under Reasoning，推理下的校准漂移）是论文作者提出的核心概念。它描述了一个反直觉的现象：随着推理预算的增加，模型的期望校准误差（Expected Calibration Error, ECE）呈现先上升后下降的U型轨迹。\n\n具体来说，当推理预算从"无"（none）增加到"轻度"（light）时，ECE反而上升，意味着校准度恶化；只有当预算进一步增加到"重度"（heavy）时，ECE才显著下降，校准度改善。这一发现挑战了"更多推理总是更好"的普遍假设。\n\n研究团队在Llama-3.1-8B和Llama-3.3-70B两个模型上进行了验证，涵盖了四种推理预算设置（none、light、medium、heavy）和21个推理陷阱问题类别。实验结果清晰地展示了这一U型曲线：\n\n- 无推理预算（none）：ECE为0.0436，过度自信差距（OG）高达+0.493，准确率仅46.1%\n- 轻度推理预算（light）：ECE上升至0.1040，OG下降至+0.249，但准确率提升至73.2%\n- 中度推理预算（medium）：ECE回落至0.0496，准确率略有下降至65.3%\n- 重度推理预算（heavy）：ECE降至最低0.0145，准确率达到73.9%\n\n这一非单调的ECE轨迹是CDUR的标志性特征。\n\n假设锁定模型：过度自信的机制解释\n\n为了解释CDUR现象，论文提出了"假设锁定模型"（Hypothesis Lock-In Model）。这是一个关于自回归推理在承诺机制下的形式化模型，试图从机理层面解释为什么适度的推理预算会导致过度自信。\n\n核心思想是：当模型被允许进行有限的推理时，它会倾向于过早地锁定在某个假设上，并随着后续推理步骤的展开，不断强化这一初始假设，即使该假设可能是错误的。这种"锁定效应"导致模型在轻度推理预算下产生极高的置信度（接近1.0），但准确率并未同步提升，从而产生过度自信。\n\n只有当推理预算足够大时，模型才有足够的"空间"来修正初始假设，探索更多可能性，最终达到更好的校准状态。这一模型为理解大语言模型的推理行为提供了新的视角。\n\nCABStop：校准感知的推理停止策略\n\n针对CDUR问题，论文提出了CABStop算法（Calibration-Aware Budget Stop），这是一种校准感知的优化停止规则。其核心思想是：当模型的置信度与辅助准确率估计之间的差距超过阈值时，主动停止推理。\n\nCABStop的工作流程如下：\n\n1. 定期检查：在推理过程中，每隔固定数量的token（如128个）进行一次检查\n2. 置信度提取：获取当前候选答案及其置信度\n3. 辅助准确率估计：通过模拟自一致性（self-consistency）方法，从多个采样中估计辅助准确率\n4. 停止判断：如果置信度减去辅助准确率大于预设阈值delta（默认0.10），则停止推理并返回答案\n5. 强制上限：如果达到最大预算（如2048个token），则强制停止\n\n这种方法的优势在于，它不需要等待推理完成就能识别出过度自信的情况，从而在实际应用中节省计算资源，同时避免模型陷入过度自信的陷阱。\n\n实验验证与代码实现\n\n研究团队提供了完整的复现管道，包括：\n\n- 数据集：25个手工设计的推理陷阱问题，涵盖15个类别，包括计数、集合论、空间推理、语义理解、概率、三段论、代数、模运算、运算符优先级、百分比、复合推理、逆否命题、锚定效应、组合数学、相对运动、条件概率、指数、混合问题、模式识别等\n\n- 评估指标：ECE（期望校准误差）、过度自信差距（Overconfidence Gap）、错误且自信的响应数量\n\n- 模拟器：一个确定性的模拟器，校准以匹配Llama-3.1-8B的实证动态，支持在无GPU和API密钥的情况下运行复现\n\n代码仓库采用模块化设计，包含数据加载器、评估器、指标计算和CABStop算法实现。用户可以通过简单的命令运行完整管道：\n\nbash\ngit clone https://github.com/prakulhiremath/CDUR.git\ncd CDUR\npip install -r requirements.txt\npython run_pipeline.py\n\n\n对于希望使用真实LLM API的用户，可以替换src/evaluators.py中的模拟函数为实际的推理端点调用。\n\n实际意义与未来展望\n\nCDUR研究具有重要的实际意义。首先，它提醒开发者和研究者，在部署大语言模型时，不能简单地假设更多的推理预算总是更好。适度预算可能导致过度自信，这在高风险应用（如医疗诊断、法律咨询、金融决策）中尤为危险。\n\n其次，CABStop算法提供了一个实用的解决方案，可以在不牺牲准确率的情况下，通过智能停止策略改善校准度，同时节省计算成本。这对于资源受限的应用场景尤其有价值。\n\n未来的研究方向可能包括：\n\n- 在更多模型架构和规模上验证CDUR现象\n- 探索不同的校准感知停止策略\n- 研究如何将CDUR框架应用于其他推理技术，如树状搜索、反思机制等\n- 开发实时校准监控工具，帮助用户识别和避免过度自信\n\n结语\n\nCDUR研究揭示了大语言模型推理中一个微妙但重要的问题：推理预算与校准度之间的关系并非单调。通过提出假设锁定模型和CABStop算法，研究者为理解和解决这一问题提供了新的工具和视角。随着大语言模型在越来越多关键领域得到应用，对其校准行为的深入理解将变得愈发重要。\n\n引用信息\n\n\n@misc{hiremath2025cdur,\n title = {Calibration Drift Under Reasoning: How Chain-of-Thought Budgets\n Induce Overconfidence in Large Language Models},\n author = {Hiremath, Prakul Sunil and Hiremath, Harshit R},\n year = {2025},\n doi = {10.5281/zenodo.19709379},\n url = {https://doi.org/10.5281/zenodo.19709379}\n}\n

CDUR：思维链预算如何导致大语言模型的过度自信

导读 / 主楼：CDUR：思维链预算如何导致大语言模型的过度自信

原作者与来源

补充观点 1

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎