章节 01
CAGE框架:用归因图解释大语言模型推理过程
本文介绍CAGE(Context Attribution via Graph Explanations)框架,这是一种通过构建归因图解释大语言模型推理过程的新方法。相比传统方法,CAGE在忠实度上提升最高达40%,有效解决了现有上下文归因方法忽略生成token间相互影响的缺陷,为LLM可解释性研究提供了新路径。
正文
本文介绍CAGE(Context Attribution via Graph Explanations)框架,一种通过构建归因图来解释大语言模型推理过程的新方法,相比传统方法在忠实度上提升最高达40%。
章节 01
本文介绍CAGE(Context Attribution via Graph Explanations)框架,这是一种通过构建归因图解释大语言模型推理过程的新方法。相比传统方法,CAGE在忠实度上提升最高达40%,有效解决了现有上下文归因方法忽略生成token间相互影响的缺陷,为LLM可解释性研究提供了新路径。
章节 02
大语言模型(LLMs)能力强大但推理过程不透明,引发安全与信任问题。计算机视觉领域的归因方法启发了上下文归因方向,但现有方法直接关联生成token与提示词,忽略token间相互影响,导致解释不完整。
章节 03
CAGE框架引入归因图(有向图结构),量化每个生成步骤受提示词及先前生成内容的影响。归因图需满足因果性(真实因果关系)和行随机性(边权重之和为1)两个关键性质,通过边缘化中间贡献计算准确归因值。
章节 04
开源实现包含llm_attr.py(多种归因方法)、CAGE归因计算(图结构归因与DAG可视化)、评估数据集。使用流程包括模型准备、初始化评估器、加载数据、生成归因、结果分析,示例见example.ipynb。
章节 05
在多模型、数据集、指标下评估,CAGE相比现有方法平均忠实度提升高达40%。这归功于归因图对token间依赖关系的完整建模,而传统方法忽略该关系。
章节 06
对开发者,可用于识别过度依赖/忽略输入、发现偏见、验证推理逻辑;在医疗、法律、金融等高风险领域,提升解释可信度,助力合规与人机协作;还启示多模态扩展、结合链式思维、交互式可视化等未来方向。
章节 07
CAGE通过归因图纳入token间影响,为LLM可解释性开辟新路径。40%的忠实度提升是新起点,未来需深入理解大模型推理,CAGE提供理论基础与工具。读者可访问项目仓库或arXiv预印本(arXiv:2512.15663)获取更多细节。