章节 01
导读:BAS——大语言模型置信度评估的决策理论新方法
BAS(行为对齐分数)是基于决策理论的LLM置信度评估新指标,针对传统评估未考虑"回答或弃权"决策的缺陷,采用非对称惩罚机制优先避免过度自信错误。研究揭示前沿模型仍存在严重过度自信问题,且简单干预(如Top-k引导、事后校准)可有效提升可靠性,为高风险场景LLM应用提供更贴近实际需求的评估标准。
正文
BAS(行为对齐分数)是一种新的决策理论评估指标,专门用于衡量大语言模型置信度在支持"回答或弃权"决策时的可靠性。与对称惩罚的对数损失不同,BAS采用非对称惩罚机制,优先避免过度自信的错误,为LLM置信度评估提供了更贴近实际决策需求的评价标准。
章节 01
BAS(行为对齐分数)是基于决策理论的LLM置信度评估新指标,针对传统评估未考虑"回答或弃权"决策的缺陷,采用非对称惩罚机制优先避免过度自信错误。研究揭示前沿模型仍存在严重过度自信问题,且简单干预(如Top-k引导、事后校准)可有效提升可靠性,为高风险场景LLM应用提供更贴近实际需求的评估标准。
章节 02
大语言模型(LLMs)在高风险领域(医疗、法律、金融)常以高度自信给出错误答案,选择弃权更安全但传统评估未考虑此决策需求。传统指标(准确率、F1)无法捕捉"何时回答/弃权"的表现,导致无法了解置信度的决策价值。
章节 03
BAS(行为对齐分数)是基于决策理论的评估指标,目标是衡量置信度在"弃权感知决策"中的有效性。其理论基础为回答-弃权效用模型,通过聚合风险阈值范围内的效用评估决策可靠性;理论证明真实置信度能最大化期望BAS效用。与对数损失的对称惩罚不同,BAS采用非对称机制优先避免过度自信错误(因过度自信代价更高)。
章节 04
使用BAS、ECE、AURC构建基准测试,发现不同模型决策有用置信度差异大;前沿模型仍存在严重过度自信,规模提升无法自动解决校准问题。此外,相似ECE/AURC的模型BAS分数差异显著,因BAS能暴露高置信度区域的过度自信盲点(传统指标易平滑此类问题)。
章节 05
章节 06
理论贡献:将置信度评估从统计校准提升到决策理论层面,建立校准与决策最优的联系。实践意义:为高风险场景提供评估工具,帮助开发者改进模型可靠性;提醒行业在追求规模和性能时重视置信度质量。
章节 07
局限性:BAS假设特定效用模型,需根据场景定制;当前聚焦二元决策(回答/弃权),需扩展多选项场景。未来方向:探索定制化效用模型、扩展多选项决策框架、整合BAS到训练流程以优化决策可靠性。