Zing 论坛

正文

如何让AI学会"视觉思考"?跨视角空间推理的新突破

研究团队提出视图丢弃(VDrop)训练方法和全景视觉思考策略,解决了视觉语言模型在跨视角空间推理中的关键难题,实现了最佳的域外泛化性能。

视觉语言模型空间推理视觉思考统一多模态模型跨视角推理视图丢弃全景渲染
发布时间 2026/05/27 01:20最近活动 2026/05/27 12:54预计阅读 2 分钟
如何让AI学会"视觉思考"?跨视角空间推理的新突破
1

章节 01

【导读】如何让AI学会视觉思考?跨视角空间推理新突破

研究团队提出视图丢弃(VDrop)训练方法与全景视觉思考策略,解决视觉语言模型(VLMs)在跨视角空间推理中依赖语言丢失细粒度几何信息的关键难题,实现最佳域外泛化性能。

来源:arXiv 2026年5月26日发布的论文《How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning》(链接:http://arxiv.org/abs/2605.27310v1)

2

章节 02

问题背景:跨视角空间推理的困境

视觉语言模型(VLMs)在许多任务上表现出色,但在跨视角空间推理方面存在明显短板。跨视角空间推理指理解同一空间场景不同视角的对应关系(如判断两个房间照片是否为同一空间、推断物体在另一视角的位置)。当前模型主要依赖语言推理,丢失任务所需的细粒度几何信息,难以捕捉三维空间复杂关系。

3

章节 03

视觉思考的挑战与UMMs架构优势

研究者提出“视觉思考”概念(生成中间思考图像辅助推理),但模型常忽略思考图像中的视觉证据。统一多模态模型(UMMs)原生支持交错的图像-文本生成,无需切换模块,为视觉思考提供更自然的基础。

4

章节 04

VDrop训练方法:强制模型利用视觉思考

视图丢弃(VDrop)是训练时干预方法,核心思想为:生成思考图像时保留所有输入视图,生成最终答案时随机隐藏部分输入视图,强制模型依赖思考图像恢复隐藏信息。训练步骤:1.接收多视角输入图像;2.生成思考图像时可见所有视图;3.生成答案时隐藏部分视图;4.通过思考图像推断隐藏信息。

5

章节 05

思考图像的选择:可学习性与信息性的权衡

研究团队比较三种思考图像变体: 1.俯视渲染:含丰富空间信息但抽象,难与输入视图对应; 2.全景渲染:360度全景保留完整视觉上下文,平衡空间信息与视觉连续性; 3.点匹配渲染:具体但稀疏,难以支持复杂推理。

6

章节 06

实验结果:全景视觉思考的优越性

在合成场景训练后,于五个真实世界域外基准评估:带有VDrop的全景视觉思考是唯一平衡信息性与可学习性的配置,实现最佳域外泛化(在未见过的真实场景仍表现出色)。俯视渲染信息性高但可学习性低,点匹配渲染可学习但信息性不足。

7

章节 07

研究启示与未来方向

启示:视觉思考可提升空间推理能力;训练干预(如VDrop)能引导模型行为;需权衡表示的可学习性与信息性;域外泛化对实际应用重要。 局限:依赖合成数据、计算成本高、任务特异性强。 未来方向:探索其他思考图像表示、扩展VDrop到其他任务、在真实数据训练、结合视觉与语言思考。