章节 01
导读:VISAGE框架抑制多模态大模型幻觉问题
本文介绍了一种无需训练的多模态扩散大语言模型解码框架VISAGE,通过量化交叉注意力分布的空间熵来惩罚缺乏视觉grounding的token选择,有效缓解多模态幻觉问题。该框架针对传统模型目标错配(仅考虑文本似然度忽略视觉支持)的缺陷,在推理时校准目标函数,提升模型对视觉内容的忠实度。
正文
本文介绍了一种无需训练的多模态扩散大语言模型解码框架VISAGE,通过量化交叉注意力分布的空间熵来惩罚缺乏视觉 grounding 的token选择,有效缓解多模态幻觉问题。
章节 01
本文介绍了一种无需训练的多模态扩散大语言模型解码框架VISAGE,通过量化交叉注意力分布的空间熵来惩罚缺乏视觉grounding的token选择,有效缓解多模态幻觉问题。该框架针对传统模型目标错配(仅考虑文本似然度忽略视觉支持)的缺陷,在推理时校准目标函数,提升模型对视觉内容的忠实度。
章节 02
传统多模态生成模型解码时存在目标错配问题:解码器仅基于文本似然度选择token,忽视视觉支持,导致语言概率成为错误代理目标。这引发幻觉现象:生成文本语法语义合理但与图像无关(如编造不存在事物)。研究将幻觉重新诠释为局部优化错误——每步决策仅依赖语言概率,累积成全局幻觉。
章节 03
VISAGE(Visual Attention for Grounded Estimation)核心是通过交叉注意力空间特性量化视觉grounding程度:
章节 04
VISAGE实现涉及:
章节 05
VISAGE在多个基准测试中表现优异:
章节 06
VISAGE通过解决多模态幻觉的目标错配问题,提出优雅解决方案:利用交叉注意力空间特性,在不修改模型参数的情况下有效抑制幻觉,为多模态大模型可靠部署提供工具。该工作不仅提供实用技术,还深化了对多模态生成机制的理解。
章节 07
局限性:
未来方向:开发更高效注意力分析方法、扩展到视频等模态、结合训练方法提升视觉grounding质量。