Zing 论坛

正文

VISAGE:通过视觉注意力机制抑制多模态大模型的幻觉问题

本文介绍了一种无需训练的多模态扩散大语言模型解码框架VISAGE,通过量化交叉注意力分布的空间熵来惩罚缺乏视觉 grounding 的token选择,有效缓解多模态幻觉问题。

多模态大模型幻觉问题视觉注意力扩散模型交叉注意力空间熵视觉 grounding
发布时间 2026/03/27 01:53最近活动 2026/03/27 14:25预计阅读 2 分钟
VISAGE:通过视觉注意力机制抑制多模态大模型的幻觉问题
1

章节 01

导读:VISAGE框架抑制多模态大模型幻觉问题

本文介绍了一种无需训练的多模态扩散大语言模型解码框架VISAGE,通过量化交叉注意力分布的空间熵来惩罚缺乏视觉grounding的token选择,有效缓解多模态幻觉问题。该框架针对传统模型目标错配(仅考虑文本似然度忽略视觉支持)的缺陷,在推理时校准目标函数,提升模型对视觉内容的忠实度。

2

章节 02

背景:多模态幻觉的本质——目标错配

传统多模态生成模型解码时存在目标错配问题:解码器仅基于文本似然度选择token,忽视视觉支持,导致语言概率成为错误代理目标。这引发幻觉现象:生成文本语法语义合理但与图像无关(如编造不存在事物)。研究将幻觉重新诠释为局部优化错误——每步决策仅依赖语言概率,累积成全局幻觉。

3

章节 03

方法:VISAGE框架的核心思想

VISAGE(Visual Attention for Grounded Estimation)核心是通过交叉注意力空间特性量化视觉grounding程度:

  1. 空间熵指标:注意力集中(低熵)表示依赖视觉证据,均匀分布(高熵)表示依赖语言先验(幻觉风险);
  2. 定位共识:要求多注意力头指向相似区域,优先选择有强视觉grounding的token;
  3. 推理时干预:无需训练,直接在推理时重排序token,确保生成忠实于视觉内容。
4

章节 04

技术细节:VISAGE的实现要点

VISAGE实现涉及:

  1. 注意力分布提取:从视觉编码器与语言解码器间的交叉注意力层提取权重;
  2. 熵计算与归一化:采用适合图像网格的熵定义,对不同层注意力归一化以保证可比性;
  3. 动态阈值调整:根据任务和模型行为调整阈值,平衡幻觉抑制与生成流畅性。
5

章节 05

证据:实验评估结果

VISAGE在多个基准测试中表现优异:

  • HallusionBench:专门评估幻觉的基准,取得7.75%相对提升;
  • MMMU:多学科多模态理解基准,验证集实现8.59%相对性能提升;
  • 对比优势:无需训练、计算开销低、通用性强(适用于任何Transformer多模态模型)。
6

章节 06

结论:VISAGE的价值与贡献

VISAGE通过解决多模态幻觉的目标错配问题,提出优雅解决方案:利用交叉注意力空间特性,在不修改模型参数的情况下有效抑制幻觉,为多模态大模型可靠部署提供工具。该工作不仅提供实用技术,还深化了对多模态生成机制的理解。

7

章节 07

局限性与未来方向

局限性

  1. 依赖注意力权重质量,若模型注意力本身有问题则效果受限;
  2. 推理时分析注意力带来一定计算开销(尤其是高分辨率图像);
  3. 主要针对Transformer扩散模型,其他架构适用性需验证。

未来方向:开发更高效注意力分析方法、扩展到视频等模态、结合训练方法提升视觉grounding质量。