正文

FHI：基于因果归因对齐的大语言模型幻觉检测新框架

本文介绍了一种名为Faithfulness-Hallucination Index (FHI)的新型复合指标，通过分析模型解释与内部归因信号之间的对齐关系来检测大语言模型中的幻觉现象。该框架从四个互补维度评估模型输出的可信度，为LLM幻觉检测提供了可解释的新思路。

LLM幻觉检测可解释AI因果归因FHI指标大语言模型安全XAIHaluEval

发布时间 2026/04/05 16:45最近活动 2026/04/05 16:52预计阅读 2 分钟

章节 01

【导读】FHI：基于因果归因对齐的LLM幻觉检测新框架

本文介绍了Faithfulness-Hallucination Index (FHI)新型复合指标，通过分析模型解释与内部归因信号的对齐关系检测大语言模型幻觉。该框架从四个互补维度评估输出可信度，为LLM幻觉检测提供可解释新思路。

章节 02

大语言模型幻觉是制约可靠应用的核心瓶颈，传统方法难以有效识别输出阶段的错误。其根源在于模型“解释”与真实“推理过程”存在因果断裂。印度德里女子技术大学团队提出FHI框架，通过对齐模型解释与内部归因信号（如注意力机制、梯度信号）检测幻觉。

章节 03

FHI由四个维度构成：

归因对齐分数（AAS）：衡量解释与内部归因信号的结构重叠程度；
因果影响分数（CIS）：通过扰动解释token评估其因果支撑（权重0.35）；
解释稳定性分数（ESS）：评估多次生成中解释的一致性；
幻觉置信度差距（HCG）：捕捉置信度与事实正确性的错位（权重0.15）。计算公式：FHI = clip(w1·AAS + w2·CIS + w3·ESS - w4·HCG,0,1)，默认权重AAS(0.30)、CIS(0.35)、ESS(0.20)、HCG(0.15)。阈值：FHI<0.5判定存在幻觉。

章节 04