Zing 论坛

正文

耶鲁NLP提出量化推理模型置信度表达忠实性的新框架

耶鲁大学NLP实验室开源了faithful_lrm项目,提出一套系统性框架来评估大型推理模型(LRM)在思维链中表达的置信度是否真实反映其内在不确定性,揭示了当前推理模型在置信度校准方面的关键挑战。

大型推理模型置信度校准思维链不确定性量化AI可解释性模型评估耶鲁大学开源工具
发布时间 2026/06/04 01:26最近活动 2026/06/04 01:50预计阅读 2 分钟
耶鲁NLP提出量化推理模型置信度表达忠实性的新框架
1

章节 01

耶鲁NLP开源faithful_lrm框架,聚焦大型推理模型置信度表达忠实性评估

耶鲁大学NLP实验室开源了faithful_lrm项目,提出系统性框架评估大型推理模型(LRM)在思维链中表达的置信度是否真实反映内在不确定性,揭示当前推理模型在置信度校准方面的关键挑战。该框架旨在提升AI系统的可靠性与安全性。

2

章节 02

研究背景与动机

大型推理模型(如DeepSeek-R1、QwQ)通过思维链解决复杂任务时,常表达语言化置信度(如"我很有信心"),但核心问题被忽视:这些表达是否真实反映内在认知不确定性?置信度表达的忠实性对AI可靠性至关重要——过度自信可能导致用户信任风险,过度谦虚则降低实用价值。

3

章节 03

核心方法论

框架从三个维度量化置信度表达忠实性:

  1. 基于表示的置信度:分析模型隐藏层激活模式,用DeepConf指标提取内在不确定性;
  2. 基于token概率的置信度:利用token对数概率,通过RCC指标聚合推理链概率信息;
  3. 基于采样一致性的置信度:多次采样续写结果,以输出一致性衡量置信度。 此外,用Gemini-2.5-Flash对推理轨迹进行语言化决断力评分,计算与内在置信度的"忠实性差距"。
4

章节 04

实验设计与数据集

实验覆盖多个推理密集型基准:AIME(数学推理)、HLE(综合推理)、SuperGPQA(科学问答)、LegalBench(法律推理)、MuSR(多步推理)。测试模型包括DeepSeek-R1-Distill系列、Qwen/QwQ系列,参数规模7B至32B。

5

章节 05

关键发现

研究得出四大发现:

  1. 推理能力≠置信度校准:模型推理表现与置信度忠实性无必然联系,训练目标侧重正确性而非校准性;
  2. 提示干预效果有限:感知性语言、元认知对冲提示等策略无法可靠修复校准问题;
  3. 置信度估计器分歧显著:三种内在估计器(表示、概率、采样)对同一轨迹评估结果差异大;
  4. 高置信度错误普遍:模型给出错误答案时仍常表现高语言化置信度,存在误导风险。
6

章节 06

技术实现与开源贡献

项目开源完整实验框架:

  • 实验生成模块:GPU推理管道(vLLM/HuggingFace)、决断力评分脚本、三种置信度估计器实现、数据集加载器;
  • 分析模块:可视化脚本(散点图、热力图等)、聚类/分箱分析、交互式HTML仪表板生成。
7

章节 07

实践意义与建议

对开发者建议:

  1. 多维度监控:结合表示、概率等指标,不依赖单一语言化置信度;
  2. 校准训练:训练中加入显式校准目标,而非仅优化正确率;
  3. 人机协作:关键场景下,置信度信号不一致时触发人工审核。 对研究者:框架为评估推理模型可靠性提供基准工具,推动更忠实透明的AI系统发展。
8

章节 08

结语

该研究揭示大型推理模型自我认知表达的根本挑战。随着LRM在高风险领域(科学发现、医疗诊断等)应用增多,解决置信度忠实性问题是确保AI可信的关键。开源项目为学术界和工业界提供研究工具与实证基础。