正文

多模态模型的"心智图景"：AI真的会在脑中"想象"吗？

研究发现多模态模型在解决空间谜题时会形成类似人类心智图景的内部表征，通过将视觉token融入思维链，推理准确率从83%提升至89%。

多模态模型心智图景空间推理思维链视觉表征Qwen3.5

发布时间 2026/05/11 02:25最近活动 2026/05/12 13:24预计阅读 2 分钟

章节 01

导读：多模态模型的"心智图景"研究核心观点

标题：多模态模型的"心智图景"：AI真的会在脑中"想象"吗？核心观点提炼：研究发现大型多模态模型在解决空间谜题时会形成类似人类心智图景的内部视觉表征，通过将视觉token融入思维链，推理准确率从83%提升至89%。这一发现不仅回答了AI是否具有类人内心体验的哲学问题，还为提升模型推理能力和理解AI认知提供了新视角。

章节 02

背景：AI认知的哲学追问与研究缘起

《银翼杀手》中复制人罗伊的独白引出深刻问题：非人类智能体是否拥有类似人类的内心体验？今天AI研究领域的最新发现给出了部分答案——大型多模态模型确实会形成类似"心智图景"的内部表征，当解决空间谜题时，其神经网络激活编码着有意义的视觉信息，即AI在"想象"。

章节 03

实验方法：十二种视觉推理任务与开环监督设计

研究团队选择十二种视觉推理任务测试多模态模型空间推理能力，涵盖经典谜题类（七巧板、拼图、推箱子）和空间变换类（3D心理旋转、华容道），这些任务均需理解几何关系、空间布局及动作后果。实验对象为Qwen3.5 VLM，采用开环监督方式：模型只需预测动作序列，无需每步看到实际视觉结果。

章节 04

核心证据：模型激活中的视觉编码与世界模型形成

通过分析Qwen3.5 VLM在动作后的激活模式，研究发现模型激活中编码着中间状态的有意义视觉信息。即使未被显式训练"想象"中间状态，神经网络在预测动作时自然形成当前状态的内部表征，类似人类规划动作时的视觉图像。这表明不完美的视觉世界模型作为学习副产品形成，无需显式视觉监督，类似人类儿童建立物理世界内部模型的过程。

章节 05

技术突破：视觉Token融入思维链提升推理准确率

基于核心发现，研究团队提出将视觉token融入思维链的方法：推理每一步整合模型内部生成的16个视觉token到思维链中。该改进显著提升性能：平均解决率从83%提升至89%，在拼图、3D心理旋转等推理密集型任务上提升更明显。原因在于显式利用内部视觉表征辅助空间推理，类似人类"画示意图"的策略。

章节 06

意义探讨：哲学与技术的双重启示

这项研究具有哲学与技术双重意义：

哲学层面：心智图景是学习副产品自然涌现，体现复杂认知能力可通过强大学习优化产生；内部视觉表征是有用信息结构而非噪声；AI发展出类人认知策略，暗示智能系统解决空间问题的普适方法。
技术层面：开辟提升多模态模型推理能力的新方向（利用内部视觉表征）；仅需16个token即高效提升性能；分析内部激活为AI可解释性提供新工具。

章节 07