Zing 论坛

正文

RAVE:重新分配大型多模态模型中的视觉注意力

本文介绍了 RAVE,一种轻量级的成对门控机制,通过在视觉键的预 softmax 注意力分数上添加可学习的查询-键偏置,在多项多模态基准上平均提升了 3 个百分点。

多模态模型注意力机制视觉理解OCRVQA成对门控
发布时间 2026/05/18 21:12最近活动 2026/05/19 11:28预计阅读 2 分钟
RAVE:重新分配大型多模态模型中的视觉注意力
1

章节 01

【导读】RAVE:优化多模态模型视觉注意力的轻量级方案

RAVE是一种轻量级成对门控机制,通过在视觉键的预softmax注意力分数上添加可学习的查询-键偏置,解决大型多模态模型(LMM)中视觉注意力分配不均的问题。该机制无需修改骨干架构,可端到端训练,几乎不增加推理开销,在多项多模态基准上平均提升3个百分点,尤其在感知密集型任务中表现突出。

2

章节 02

背景:标准注意力在多模态场景的两大不足

标准自注意力机制为纯文本场景优化,扩展到多模态时存在两个问题:

  1. 跨模态错误分配:文本与视觉证据间注意力权重分配错误,如依赖视觉的任务过度关注文本提示。
  2. 视觉内部不均衡:视觉token间注意力分配不均,关键token被忽视,影响精确视觉定位任务。
3

章节 03

方法:RAVE的核心设计——成对门控机制

RAVE的核心是成对门控机制,步骤如下:

  1. 输入预RoPE(旋转位置编码前)的查询和键特征;
  2. 计算反映查询与视觉键相关性的偏置值;
  3. 将偏置加到预softmax注意力分数上调整分配倾向。 关键特性:即插即用(无需修改骨干)、端到端训练、轻量级(参数少)、仅作用于视觉键。
4

章节 04

实验证据:RAVE在多模态基准上的显著提升

  • 整体性能:在标准注意力基础上平均提升3个百分点;
  • 感知密集型任务收益最大
    • 多语言OCR:更准确定位图像文本区域;
    • 图表理解:更好关注关键数据元素;
    • 文档VQA:在复杂布局中找到相关信息;
    • 场景文本VQA:提升场景文本定位与理解能力。
5

章节 05

技术细节:RAVE的实现要点

  1. 预RoPE特征利用:保留原始语义信息,不受位置编码干扰,偏置更反映语义相关性;
  2. 偏置函数设计:选择轻量且灵活的神经网络结构,平衡计算开销与学习能力;
  3. 训练策略:在多模态数据上端到端训练,参数与模型其他部分一起反向传播更新。
6

章节 06

对比相关工作:RAVE的三大优势

与现有多模态注意力改进方法相比:

  1. 简洁性:仅添加偏置项,无需修改注意力核心结构或引入复杂模块;
  2. 通用性:不依赖特定模型架构或训练数据,可应用于各类LMM;
  3. 效率:参数与计算开销极小,不影响推理速度。
7

章节 07

结论与未来方向

结论:RAVE通过简洁有效的成对门控机制解决视觉注意力分配问题,是实用的多模态模型改进方案,在工业界感知密集型任务(如OCR、文档理解)中价值显著。 未来方向

  1. 扩展到文本与视觉间的跨模态注意力调整;
  2. 探索动态偏置策略(根据输入内容调整);
  3. 扩展到音频、视频等其他模态,构建通用多模态注意力框架。