正文

RAVE：重新分配大型多模态模型中的视觉注意力

本文介绍了 RAVE，一种轻量级的成对门控机制，通过在视觉键的预 softmax 注意力分数上添加可学习的查询-键偏置，在多项多模态基准上平均提升了 3 个百分点。

多模态模型注意力机制视觉理解OCRVQA成对门控

发布时间 2026/05/18 21:12最近活动 2026/05/19 11:28预计阅读 2 分钟

章节 01

【导读】RAVE：优化多模态模型视觉注意力的轻量级方案

RAVE是一种轻量级成对门控机制，通过在视觉键的预softmax注意力分数上添加可学习的查询-键偏置，解决大型多模态模型（LMM）中视觉注意力分配不均的问题。该机制无需修改骨干架构，可端到端训练，几乎不增加推理开销，在多项多模态基准上平均提升3个百分点，尤其在感知密集型任务中表现突出。

章节 02

标准自注意力机制为纯文本场景优化，扩展到多模态时存在两个问题：

章节 03

RAVE的核心是成对门控机制，步骤如下：

章节 04

整体性能：在标准注意力基础上平均提升3个百分点；
感知密集型任务收益最大：
- 多语言OCR：更准确定位图像文本区域；
- 图表理解：更好关注关键数据元素；
- 文档VQA：在复杂布局中找到相关信息；
- 场景文本VQA：提升场景文本定位与理解能力。

章节 05

章节 06

与现有多模态注意力改进方法相比：

章节 07

结论：RAVE通过简洁有效的成对门控机制解决视觉注意力分配问题，是实用的多模态模型改进方案，在工业界感知密集型任务（如OCR、文档理解）中价值显著。 未来方向：