章节 01
【导读】思维链损害多模态大模型视觉空间推理能力的核心发现
本文通过17个多模态模型在13个空间推理基准上的评估,发现思维链(CoT)提示反而降低视觉空间推理性能,并揭示模型存在严重的捷径学习和视觉幻觉问题。这一反直觉发现挑战了CoT在多模态领域的普适性,为后续研究指明方向。
正文
本文通过17个模型在13个空间基准上的评估发现,思维链提示反而会降低视觉空间推理性能,并揭示模型存在严重的捷径学习和视觉幻觉问题。
章节 01
本文通过17个多模态模型在13个空间推理基准上的评估,发现思维链(CoT)提示反而降低视觉空间推理性能,并揭示模型存在严重的捷径学习和视觉幻觉问题。这一反直觉发现挑战了CoT在多模态领域的普适性,为后续研究指明方向。
章节 02
思维链(CoT)是大语言模型领域的重要技术突破,通过显式推理步骤显著提升数学、逻辑等任务表现。多模态推理模型(MRMs)将其扩展到视觉领域,在数学图表理解、几何问题求解等任务取得成果,但最新研究发现CoT在视觉空间推理上不仅无帮助,反而损害模型表现。
章节 03
研究团队对17个多模态模型(含开源如LLaVA、Qwen-VL,闭源如GPT-4V、Gemini,专门MRMs)在13个空间推理基准(涵盖空间关系推理、导航、视觉问答空间问题、几何推理、心理旋转、空间记忆6类任务)进行评估,系统比较CoT与非CoT提示的性能差异。
章节 04
几乎所有空间推理任务中,CoT提示使准确率平均下降10-20%,精确空间定位任务下降幅度更大;即使专门MRMs使用CoT后能力也明显减弱。原因包括:语言描述局限性(连续空间转离散符号损失精度)、注意力分散(过度关注文本忽略视觉细节)、推理路径误导(错误假设放大)。
章节 05
No-Image++实验(仅提供问题文本无图像)发现:使用CoT的模型仍能给出答案,暴露捷径学习(依赖文本先验而非视觉);还存在视觉幻觉(无图像时凭空描述视觉细节),这是模型维持CoT推理连贯的副产品。
章节 06
1.表征差异:空间是连续几何表征,语言是离散符号表征,CoT用符号处理空间问题错位;2.推理粒度错位:CoT粗粒度概念推理无法捕捉空间所需细粒度几何计算;3.训练数据偏差:文本-答案强相关性强化捷径学习。
章节 07
1.质疑MRMs设计:CoT核心技术损害空间推理,优势或来自规模而非架构;2.评估指标不足:高分可能来自捷径,需更检测真实视觉理解的方法;3.应用风险:自动驾驶等场景依赖空间决策,分布外易出错。
章节 08
呼吁发展:1.视觉原生推理架构(空间关系建模、几何深度学习整合);2.混合推理策略(CoT与视觉原生方法结合);3.严格评估协议(对抗样本、分布外测试);4.可解释性研究(理解模型依赖的信息源)。