正文

VISAGE：通过视觉注意力机制抑制多模态大模型的幻觉问题

本文介绍了一种无需训练的多模态扩散大语言模型解码框架VISAGE，通过量化交叉注意力分布的空间熵来惩罚缺乏视觉 grounding 的token选择，有效缓解多模态幻觉问题。

多模态大模型幻觉问题视觉注意力扩散模型交叉注意力空间熵视觉 grounding

发布时间 2026/03/27 01:53最近活动 2026/03/27 14:25预计阅读 2 分钟

章节 01

导读：VISAGE框架抑制多模态大模型幻觉问题

本文介绍了一种无需训练的多模态扩散大语言模型解码框架VISAGE，通过量化交叉注意力分布的空间熵来惩罚缺乏视觉grounding的token选择，有效缓解多模态幻觉问题。该框架针对传统模型目标错配（仅考虑文本似然度忽略视觉支持）的缺陷，在推理时校准目标函数，提升模型对视觉内容的忠实度。

章节 02

传统多模态生成模型解码时存在目标错配问题：解码器仅基于文本似然度选择token，忽视视觉支持，导致语言概率成为错误代理目标。这引发幻觉现象：生成文本语法语义合理但与图像无关（如编造不存在事物）。研究将幻觉重新诠释为局部优化错误——每步决策仅依赖语言概率，累积成全局幻觉。

章节 03

VISAGE（Visual Attention for Grounded Estimation）核心是通过交叉注意力空间特性量化视觉grounding程度：

章节 04

VISAGE实现涉及：

章节 05

VISAGE在多个基准测试中表现优异：

章节 06

VISAGE通过解决多模态幻觉的目标错配问题，提出优雅解决方案：利用交叉注意力空间特性，在不修改模型参数的情况下有效抑制幻觉，为多模态大模型可靠部署提供工具。该工作不仅提供实用技术，还深化了对多模态生成机制的理解。

章节 07

局限性：

未来方向：开发更高效注意力分析方法、扩展到视频等模态、结合训练方法提升视觉grounding质量。