Zing 论坛

正文

BAS:面向大语言模型置信度评估的决策理论方法

BAS(行为对齐分数)是一种新的决策理论评估指标,专门用于衡量大语言模型置信度在支持"回答或弃权"决策时的可靠性。与对称惩罚的对数损失不同,BAS采用非对称惩罚机制,优先避免过度自信的错误,为LLM置信度评估提供了更贴近实际决策需求的评价标准。

BAS行为对齐分数大语言模型置信度评估决策理论弃权机制过度自信模型校准ECEAURC
发布时间 2026/04/04 01:44最近活动 2026/04/06 10:48预计阅读 2 分钟
BAS:面向大语言模型置信度评估的决策理论方法
1

章节 01

导读:BAS——大语言模型置信度评估的决策理论新方法

BAS(行为对齐分数)是基于决策理论的LLM置信度评估新指标,针对传统评估未考虑"回答或弃权"决策的缺陷,采用非对称惩罚机制优先避免过度自信错误。研究揭示前沿模型仍存在严重过度自信问题,且简单干预(如Top-k引导、事后校准)可有效提升可靠性,为高风险场景LLM应用提供更贴近实际需求的评估标准。

2

章节 02

问题背景:LLM过度自信的风险与传统评估的缺陷

大语言模型(LLMs)在高风险领域(医疗、法律、金融)常以高度自信给出错误答案,选择弃权更安全但传统评估未考虑此决策需求。传统指标(准确率、F1)无法捕捉"何时回答/弃权"的表现,导致无法了解置信度的决策价值。

3

章节 03

BAS的核心理念与非对称惩罚机制

BAS(行为对齐分数)是基于决策理论的评估指标,目标是衡量置信度在"弃权感知决策"中的有效性。其理论基础为回答-弃权效用模型,通过聚合风险阈值范围内的效用评估决策可靠性;理论证明真实置信度能最大化期望BAS效用。与对数损失的对称惩罚不同,BAS采用非对称机制优先避免过度自信错误(因过度自信代价更高)。

4

章节 04

基准测试发现:前沿模型仍存在严重过度自信

使用BAS、ECE、AURC构建基准测试,发现不同模型决策有用置信度差异大;前沿模型仍存在严重过度自信,规模提升无法自动解决校准问题。此外,相似ECE/AURC的模型BAS分数差异显著,因BAS能暴露高置信度区域的过度自信盲点(传统指标易平滑此类问题)。

5

章节 05

改进建议:简单干预提升置信度可靠性

  1. Top-k置信度引导:推理时考虑前k个预测,基于置信度分布做保守决策,无需重训练;2. 事后校准:通过温度缩放、Platt缩放等经典方法转换原始置信度,显著提升BAS分数。这些简单干预可有效降低过度自信风险。
6

章节 06

理论贡献与实践意义:从校准到决策对齐

理论贡献:将置信度评估从统计校准提升到决策理论层面,建立校准与决策最优的联系。实践意义:为高风险场景提供评估工具,帮助开发者改进模型可靠性;提醒行业在追求规模和性能时重视置信度质量。

7

章节 07

局限性与未来研究方向

局限性:BAS假设特定效用模型,需根据场景定制;当前聚焦二元决策(回答/弃权),需扩展多选项场景。未来方向:探索定制化效用模型、扩展多选项决策框架、整合BAS到训练流程以优化决策可靠性。