正文

耶鲁NLP提出量化推理模型置信度表达忠实性的新框架

耶鲁大学NLP实验室开源了faithful_lrm项目，提出一套系统性框架来评估大型推理模型(LRM)在思维链中表达的置信度是否真实反映其内在不确定性，揭示了当前推理模型在置信度校准方面的关键挑战。

大型推理模型置信度校准思维链不确定性量化AI可解释性模型评估耶鲁大学开源工具

发布时间 2026/06/04 01:26最近活动 2026/06/04 01:50预计阅读 2 分钟

章节 01

耶鲁NLP开源faithful_lrm框架，聚焦大型推理模型置信度表达忠实性评估

耶鲁大学NLP实验室开源了faithful_lrm项目，提出系统性框架评估大型推理模型(LRM)在思维链中表达的置信度是否真实反映内在不确定性，揭示当前推理模型在置信度校准方面的关键挑战。该框架旨在提升AI系统的可靠性与安全性。

章节 02

大型推理模型（如DeepSeek-R1、QwQ）通过思维链解决复杂任务时，常表达语言化置信度（如"我很有信心"），但核心问题被忽视：这些表达是否真实反映内在认知不确定性？置信度表达的忠实性对AI可靠性至关重要——过度自信可能导致用户信任风险，过度谦虚则降低实用价值。

章节 03

框架从三个维度量化置信度表达忠实性：

基于表示的置信度：分析模型隐藏层激活模式，用DeepConf指标提取内在不确定性；
基于token概率的置信度：利用token对数概率，通过RCC指标聚合推理链概率信息；
基于采样一致性的置信度：多次采样续写结果，以输出一致性衡量置信度。此外，用Gemini-2.5-Flash对推理轨迹进行语言化决断力评分，计算与内在置信度的"忠实性差距"。

章节 04

实验覆盖多个推理密集型基准：AIME（数学推理）、HLE（综合推理）、SuperGPQA（科学问答）、LegalBench（法律推理）、MuSR（多步推理）。测试模型包括DeepSeek-R1-Distill系列、Qwen/QwQ系列，参数规模7B至32B。

章节 05

研究得出四大发现：

章节 06

项目开源完整实验框架：

章节 07

对开发者建议：

章节 08

该研究揭示大型推理模型自我认知表达的根本挑战。随着LRM在高风险领域（科学发现、医疗诊断等）应用增多，解决置信度忠实性问题是确保AI可信的关键。开源项目为学术界和工业界提供研究工具与实证基础。