Zing 论坛

正文

思维链损害多模态大模型视觉空间推理能力的研究发现

本文通过17个模型在13个空间基准上的评估发现,思维链提示反而会降低视觉空间推理性能,并揭示模型存在严重的捷径学习和视觉幻觉问题。

思维链空间推理多模态大模型捷径学习视觉幻觉No-Image++视觉中心推理
发布时间 2026/04/17 21:35最近活动 2026/04/20 10:26预计阅读 2 分钟
思维链损害多模态大模型视觉空间推理能力的研究发现
1

章节 01

【导读】思维链损害多模态大模型视觉空间推理能力的核心发现

本文通过17个多模态模型在13个空间推理基准上的评估,发现思维链(CoT)提示反而降低视觉空间推理性能,并揭示模型存在严重的捷径学习和视觉幻觉问题。这一反直觉发现挑战了CoT在多模态领域的普适性,为后续研究指明方向。

2

章节 02

背景:思维链在多模态推理中的应用与问题

思维链(CoT)是大语言模型领域的重要技术突破,通过显式推理步骤显著提升数学、逻辑等任务表现。多模态推理模型(MRMs)将其扩展到视觉领域,在数学图表理解、几何问题求解等任务取得成果,但最新研究发现CoT在视觉空间推理上不仅无帮助,反而损害模型表现。

3

章节 03

研究设计与方法:全面评估模型与基准

研究团队对17个多模态模型(含开源如LLaVA、Qwen-VL,闭源如GPT-4V、Gemini,专门MRMs)在13个空间推理基准(涵盖空间关系推理、导航、视觉问答空间问题、几何推理、心理旋转、空间记忆6类任务)进行评估,系统比较CoT与非CoT提示的性能差异。

4

章节 04

核心发现:CoT导致空间推理性能下降

几乎所有空间推理任务中,CoT提示使准确率平均下降10-20%,精确空间定位任务下降幅度更大;即使专门MRMs使用CoT后能力也明显减弱。原因包括:语言描述局限性(连续空间转离散符号损失精度)、注意力分散(过度关注文本忽略视觉细节)、推理路径误导(错误假设放大)。

5

章节 05

No-Image++实验:揭示捷径学习与视觉幻觉

No-Image++实验(仅提供问题文本无图像)发现:使用CoT的模型仍能给出答案,暴露捷径学习(依赖文本先验而非视觉);还存在视觉幻觉(无图像时凭空描述视觉细节),这是模型维持CoT推理连贯的副产品。

6

章节 06

深入分析:CoT不适合空间推理的本质原因

1.表征差异:空间是连续几何表征,语言是离散符号表征,CoT用符号处理空间问题错位;2.推理粒度错位:CoT粗粒度概念推理无法捕捉空间所需细粒度几何计算;3.训练数据偏差:文本-答案强相关性强化捷径学习。

7

章节 07

对现有方法的挑战:MRMs、评估与应用风险

1.质疑MRMs设计:CoT核心技术损害空间推理,优势或来自规模而非架构;2.评估指标不足:高分可能来自捷径,需更检测真实视觉理解的方法;3.应用风险:自动驾驶等场景依赖空间决策,分布外易出错。

8

章节 08

未来方向:以视觉为中心的推理范式

呼吁发展:1.视觉原生推理架构(空间关系建模、几何深度学习整合);2.混合推理策略(CoT与视觉原生方法结合);3.严格评估协议(对抗样本、分布外测试);4.可解释性研究(理解模型依赖的信息源)。