章节 01
ORCE:大语言模型语言化置信度的顺序感知对齐方法(导读)
ORCE:大语言模型语言化置信度的顺序感知对齐方法(导读)
ORCE是一种解耦的顺序感知置信度校准框架,核心在于分离答案生成与置信度估计两个阶段,并基于采样构建排序学习目标,实现更可靠的语言化置信度对齐。该方法在保持答案准确性的同时,显著提升了校准性能和失败预测能力,为解决大语言模型过度自信的问题提供了有效方案。
正文
ORCE是一种解耦的顺序感知置信度校准框架,通过分离答案生成与置信度估计,并基于采样构建排序学习目标,实现了更可靠的语言化置信度对齐,在保持答案准确性的同时提升校准性能和失败预测能力。
章节 01
ORCE是一种解耦的顺序感知置信度校准框架,核心在于分离答案生成与置信度估计两个阶段,并基于采样构建排序学习目标,实现更可靠的语言化置信度对齐。该方法在保持答案准确性的同时,显著提升了校准性能和失败预测能力,为解决大语言模型过度自信的问题提供了有效方案。
章节 02
大语言模型常表现出过度自信,即使答案错误仍高置信度陈述,给医疗、法律等领域应用带来风险。语言化置信度(如"非常确定")是直观解决方案,优势在于无需访问模型内部token概率即可获取不确定性信号。但现有方法将答案生成与置信度生成耦合,导致优化目标冲突:为表达保守置信度可能生成模糊答案,或为明确答案被迫高置信度,限制两者独立优化。
章节 03
ORCE采用两阶段解耦框架:
章节 04
ORCE摒弃传统绝对准确性优化,转向相对排序目标:对每个问题生成多个候选答案,训练置信度模块为更可能正确的答案分配更高置信度。该目标降低学习难度(无需精确概率)、对标签噪声鲁棒。通过基于排序的强化学习奖励机制,引导模型区分答案的置信度高低。
章节 05
在推理和知识密集型基准上,ORCE表现显著:
章节 06
语言化置信度通用性强(适用于黑盒API),与基于token概率的方法互补,可结合使用提升准确性。
章节 07
章节 08
ORCE为大模型置信度校准提供优雅解决方案,其解耦设计与顺序感知目标不仅提升了语言化置信度对齐效果,也为学习目标分离与组合提供了见解。在AI融入决策流程的今天,准确的置信度表达是可信AI的关键组成部分。