正文

思维链损害多模态大模型视觉空间推理能力的研究发现

本文通过17个模型在13个空间基准上的评估发现，思维链提示反而会降低视觉空间推理性能，并揭示模型存在严重的捷径学习和视觉幻觉问题。

思维链空间推理多模态大模型捷径学习视觉幻觉No-Image++视觉中心推理

发布时间 2026/04/17 21:35最近活动 2026/04/20 10:26预计阅读 2 分钟

章节 01

【导读】思维链损害多模态大模型视觉空间推理能力的核心发现

本文通过17个多模态模型在13个空间推理基准上的评估，发现思维链（CoT）提示反而降低视觉空间推理性能，并揭示模型存在严重的捷径学习和视觉幻觉问题。这一反直觉发现挑战了CoT在多模态领域的普适性，为后续研究指明方向。

章节 02

思维链（CoT）是大语言模型领域的重要技术突破，通过显式推理步骤显著提升数学、逻辑等任务表现。多模态推理模型（MRMs）将其扩展到视觉领域，在数学图表理解、几何问题求解等任务取得成果，但最新研究发现CoT在视觉空间推理上不仅无帮助，反而损害模型表现。

章节 03

研究团队对17个多模态模型（含开源如LLaVA、Qwen-VL，闭源如GPT-4V、Gemini，专门MRMs）在13个空间推理基准（涵盖空间关系推理、导航、视觉问答空间问题、几何推理、心理旋转、空间记忆6类任务）进行评估，系统比较CoT与非CoT提示的性能差异。

章节 04

几乎所有空间推理任务中，CoT提示使准确率平均下降10-20%，精确空间定位任务下降幅度更大；即使专门MRMs使用CoT后能力也明显减弱。原因包括：语言描述局限性（连续空间转离散符号损失精度）、注意力分散（过度关注文本忽略视觉细节）、推理路径误导（错误假设放大）。

章节 05

No-Image++实验（仅提供问题文本无图像）发现：使用CoT的模型仍能给出答案，暴露捷径学习（依赖文本先验而非视觉）；还存在视觉幻觉（无图像时凭空描述视觉细节），这是模型维持CoT推理连贯的副产品。

章节 06

1.表征差异：空间是连续几何表征，语言是离散符号表征，CoT用符号处理空间问题错位；2.推理粒度错位：CoT粗粒度概念推理无法捕捉空间所需细粒度几何计算；3.训练数据偏差：文本-答案强相关性强化捷径学习。

章节 07

1.质疑MRMs设计：CoT核心技术损害空间推理，优势或来自规模而非架构；2.评估指标不足：高分可能来自捷径，需更检测真实视觉理解的方法；3.应用风险：自动驾驶等场景依赖空间决策，分布外易出错。

章节 08

呼吁发展：1.视觉原生推理架构（空间关系建模、几何深度学习整合）；2.混合推理策略（CoT与视觉原生方法结合）；3.严格评估协议（对抗样本、分布外测试）；4.可解释性研究（理解模型依赖的信息源）。