章节 01
潜在空间去噪:提升多模态大模型视觉对齐的新范式(导读)
本文提出潜在空间去噪框架,通过显著性感知的token掩码和高斯噪声混合策略,增强多模态大模型的内部视觉表征对齐能力。该方法在标准基准测试(如VQA-v2、GQA)和组合鲁棒性测试(如NaturalBench)中均取得显著提升,且推理阶段零额外开销。
正文
本文提出了一种潜在空间去噪框架,通过显著性感知的token掩码和高斯噪声混合策略,增强多模态大模型的内部视觉表征对齐能力,在标准基准测试和组合鲁棒性测试中均取得显著提升,且推理阶段零额外开销。
章节 01
本文提出潜在空间去噪框架,通过显著性感知的token掩码和高斯噪声混合策略,增强多模态大模型的内部视觉表征对齐能力。该方法在标准基准测试(如VQA-v2、GQA)和组合鲁棒性测试(如NaturalBench)中均取得显著提升,且推理阶段零额外开销。
章节 02
当前主流多模态模型采用预训练视觉编码器提取图像特征,投影到语言模型空间后以自回归语言建模目标微调。这种间接监督带来两个问题:1. 视觉token表征缺乏语义丰富性;2. 对分布偏移图像的理解能力易下降,尤其在复杂场景、细粒度细节或对抗样本中表现明显。
章节 03
结合掩码噪声(遮蔽部分视觉token)和高斯噪声(添加连续扰动),噪声施加基于图像显著性分布,保护显著区域,背景区域承受更多噪声。
训练时的噪声操作和辅助解码器头在推理阶段完全移除,模型结构恢复标准流程,无额外计算负担。
章节 04
在VQA-v2、GQA、TextVQA、POPE等基准上,模型consistently超越强基线,细粒度任务(如TextVQA)提升更明显。
NaturalBench测试中,模型面对不常见组合、干扰信息或分布偏移时表现更优,鲁棒性增益清晰。
ImageNet-C风格损坏(高斯噪声、模糊、JPEG压缩等)下,模型准确率下降幅度显著小于基线,对视觉退化更稳健。
章节 05
章节 06
可扩展到视频理解、音频-语言模型、具身智能等场景。
更好的视觉对齐可能减少推理步骤或参数,助力模型压缩和边缘部署。
章节 07
探索扩散模型式的复杂噪声策略、应用于更大规模模型、开发轻量化训练实现。