Zing 论坛

正文

FHI:基于因果归因对齐的大语言模型幻觉检测新框架

本文介绍了一种名为Faithfulness-Hallucination Index (FHI)的新型复合指标,通过分析模型解释与内部归因信号之间的对齐关系来检测大语言模型中的幻觉现象。该框架从四个互补维度评估模型输出的可信度,为LLM幻觉检测提供了可解释的新思路。

LLM幻觉检测可解释AI因果归因FHI指标大语言模型安全XAIHaluEval
发布时间 2026/04/05 16:45最近活动 2026/04/05 16:52预计阅读 2 分钟
FHI:基于因果归因对齐的大语言模型幻觉检测新框架
1

章节 01

【导读】FHI:基于因果归因对齐的LLM幻觉检测新框架

本文介绍了Faithfulness-Hallucination Index (FHI)新型复合指标,通过分析模型解释与内部归因信号的对齐关系检测大语言模型幻觉。该框架从四个互补维度评估输出可信度,为LLM幻觉检测提供可解释新思路。

2

章节 02

背景:LLM幻觉问题的本质挑战

大语言模型幻觉是制约可靠应用的核心瓶颈,传统方法难以有效识别输出阶段的错误。其根源在于模型“解释”与真实“推理过程”存在因果断裂。印度德里女子技术大学团队提出FHI框架,通过对齐模型解释与内部归因信号(如注意力机制、梯度信号)检测幻觉。

3

章节 03

方法:FHI的四维评估体系与计算规则

FHI由四个维度构成:

  1. 归因对齐分数(AAS):衡量解释与内部归因信号的结构重叠程度;
  2. 因果影响分数(CIS):通过扰动解释token评估其因果支撑(权重0.35);
  3. 解释稳定性分数(ESS):评估多次生成中解释的一致性;
  4. 幻觉置信度差距(HCG):捕捉置信度与事实正确性的错位(权重0.15)。 计算公式:FHI = clip(w1·AAS + w2·CIS + w3·ESS - w4·HCG,0,1),默认权重AAS(0.30)、CIS(0.35)、ESS(0.20)、HCG(0.15)。阈值:FHI<0.5判定存在幻觉。
4

章节 04

证据:FHI的技术实现与实验验证

技术实现涵盖完整XAI工具链,支持注意力分析、梯度归因、SHAP值计算等;扰动实验实现token级掩码与输出对比;评估体系覆盖事实问答、多跳推理、对抗样本。实验在TriviaQA、HaluEval、MuSiQue等数据集验证,尤其在MuSiQue上展现对复杂推理链幻觉的敏感捕捉能力。

5

章节 05

结论与展望:FHI的实践意义与未来方向

FHI为LLM可解释性与安全性提供新视角,事前检测机制可在输出前识别风险,适用于医疗、法律等高风险场景。框架模块化设计便于扩展,未来可适配多模态模型、Agent系统。幻觉检测是可信AI关键,FHI结合可解释技术与因果推理,为技术安全释放提供保障。