正文

视觉潜变量被沉默：多模态大模型中的隐式推理优化新范式

本文揭示多模态大语言模型中视觉潜变量被系统性抑制的问题，提出两阶段推理时优化方法，无需参数更新即可释放被压制的视觉推理能力。

多模态模型视觉潜变量推理时优化自回归目标对比学习视觉推理

发布时间 2026/05/04 23:36最近活动 2026/05/05 10:38预计阅读 2 分钟

章节 01

【导读】视觉潜变量沉默现象与推理时优化新范式

本文揭示多模态大语言模型中视觉潜变量被系统性抑制的问题，提出无需参数更新的两阶段推理时优化方法，可释放被压制的视觉推理能力，为多模态模型能力提升开辟新路径。

章节 02

背景：连续潜空间推理的兴起

连续潜空间推理为多模态模型提供了比文本思维链更紧凑的替代方案，能整合高维视觉证据且无需显式推理token，理论上兼具效率与表达能力，但实际训练中存在长期忽视的优化病理。

章节 03

核心发现：视觉潜变量沉默现象及其原因

现象描述

研究团队识别出优化病理：视觉潜变量训练中语义丰富，但对最终答案预测的贡献被系统性抑制。

根本原因

共享参数空间内自回归目标倾向依赖直接视觉输入捷径，导致潜变量token被推向下过渡状态，而非有意义推理内容，此现象被命名为"视觉潜变量沉默(Silenced Visual Latents)"。

章节 04

解决方案：两阶段推理时优化方法

第一阶段：查询引导的对比对齐

通过查询引导的对比潜变量-视觉对齐预热视觉潜变量，防止坍缩并提升语义质量，确保捕获丰富跨模态信息。

第二阶段：置信度递进奖励

通过置信度递进奖励优化潜变量推理，激励预测token分布逐渐集中，引导预测通过潜变量推理路径而非绕过。

章节 05

实验验证：无需参数更新的显著效果

研究团队在8个基准测试和4个模型主干上实验：

无需参数更新：所有优化均在推理时完成，不修改模型参数
显著性能提升：有效释放被压制的视觉潜变量推理能力
跨模型泛化：方法在多种架构上表现良好迁移性

章节 06

技术意义与实际应用启示

技术意义

揭示多模态模型训练中自回归目标与视觉推理目标的内在冲突，将优化从训练转移到推理阶段，开辟无需重新训练增强模型能力的新路径。

实际应用启示

不修改预训练模型即可提升推理质量
为视觉-语言任务提供更高效推理机制
为理解多模态模型内部工作机制提供新视角

章节 07

结论：视觉推理能力释放的新路径

"视觉潜变量沉默"现象的揭示和两阶段优化方法，为多模态大语言模型能力释放提供新技术路径，有望推动视觉推理领域进一步发展。