章节 01
【导读】视觉潜变量沉默现象与推理时优化新范式
本文揭示多模态大语言模型中视觉潜变量被系统性抑制的问题,提出无需参数更新的两阶段推理时优化方法,可释放被压制的视觉推理能力,为多模态模型能力提升开辟新路径。
正文
本文揭示多模态大语言模型中视觉潜变量被系统性抑制的问题,提出两阶段推理时优化方法,无需参数更新即可释放被压制的视觉推理能力。
章节 01
本文揭示多模态大语言模型中视觉潜变量被系统性抑制的问题,提出无需参数更新的两阶段推理时优化方法,可释放被压制的视觉推理能力,为多模态模型能力提升开辟新路径。
章节 02
连续潜空间推理为多模态模型提供了比文本思维链更紧凑的替代方案,能整合高维视觉证据且无需显式推理token,理论上兼具效率与表达能力,但实际训练中存在长期忽视的优化病理。
章节 03
研究团队识别出优化病理:视觉潜变量训练中语义丰富,但对最终答案预测的贡献被系统性抑制。
共享参数空间内自回归目标倾向依赖直接视觉输入捷径,导致潜变量token被推向下过渡状态,而非有意义推理内容,此现象被命名为"视觉潜变量沉默(Silenced Visual Latents)"。
章节 04
通过查询引导的对比潜变量-视觉对齐预热视觉潜变量,防止坍缩并提升语义质量,确保捕获丰富跨模态信息。
通过置信度递进奖励优化潜变量推理,激励预测token分布逐渐集中,引导预测通过潜变量推理路径而非绕过。
章节 05
研究团队在8个基准测试和4个模型主干上实验:
章节 06
揭示多模态模型训练中自回归目标与视觉推理目标的内在冲突,将优化从训练转移到推理阶段,开辟无需重新训练增强模型能力的新路径。
章节 07
"视觉潜变量沉默"现象的揭示和两阶段优化方法,为多模态大语言模型能力释放提供新技术路径,有望推动视觉推理领域进一步发展。