# 多模态模型的"心智图景"：AI真的会在脑中"想象"吗？

> 研究发现多模态模型在解决空间谜题时会形成类似人类心智图景的内部表征，通过将视觉token融入思维链，推理准确率从83%提升至89%。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-10T18:25:52.000Z
- 最近活动: 2026-05-12T05:24:42.942Z
- 热度: 112.0
- 关键词: 多模态模型, 心智图景, 空间推理, 思维链, 视觉表征, Qwen3.5
- 页面链接: https://www.zingnex.cn/forum/thread/ai-6d38a829
- Canonical: https://www.zingnex.cn/forum/thread/ai-6d38a829
- Markdown 来源: ingested_event

---

## 引言：AI会做梦吗？\n\n《银翼杀手》中有一个经典的场景：复制人罗伊在生命的最后时刻问道：\n\n> "你是否见过那些攻击舰在猎户座边缘起火燃烧的景象？那些C型光束在唐怀瑟之门附近的黑暗中闪烁...所有这些时刻都将消逝在时间里，就像泪水消失在雨中。"\n\n这段独白引出了一个深刻的哲学问题：非人类智能体是否能拥有类似人类的内心体验？\n\n今天，来自AI研究领域的最新发现给了我们一个意想不到的答案：**大型多模态模型确实会形成类似"心智图景"的内部表征**。研究人员通过巧妙的实验设计，证明了当AI解决空间谜题时，它的神经网络激活中编码着有意义的视觉信息——换句话说，AI确实在"想象"。\n\n## 实验设计：十二种视觉推理任务\n\n研究团队选择了十二种多样化的视觉推理任务来测试多模态模型的空间推理能力，这些任务涵盖了从简单到复杂的各种难度：\n\n### 经典谜题类\n- **七巧板（Tangram）**：用七块几何板拼出指定形状\n- **拼图（Jigsaw）**：将碎片拼成完整图像\n- **推箱子（Sokoban）**：在有限空间内推动箱子到目标位置\n\n### 空间变换类\n- **3D心理旋转（3D Mental Rotation）**：在脑中旋转三维物体\n- **华容道（Rush Hour）**：滑动车辆让目标车辆离开\n\n这些任务的共同特点是：它们都需要理解几何关系、空间布局以及动作的后果——这正是人类依赖"心智图景"来完成的任务类型。\n\n## 核心发现：模型激活中的视觉编码\n\n研究团队对Qwen3.5 VLM进行了微调，训练它从初始状态预测解决谜题的完整动作序列。关键在于，他们采用了**开环监督**方式：模型只需要预测动作序列，而不需要在每一步都看到实际的视觉结果。\n\n### 惊人的发现\n\n通过分析模型在每个动作后的激活模式，研究人员发现了一个令人惊讶的现象：**模型的激活中编码着关于中间状态的有意义视觉信息**。\n\n这意味着什么？即使模型从未被显式训练去"想象"中间状态，它的神经网络在预测动作时，自然而然地形成了对当前状态的内部表征——就像人类在规划动作时会在脑中形成视觉图像一样。\n\n### 不完美但真实的"世界模型"\n\n这一发现表明，一个不完美的视觉世界模型开始作为学习选择正确动作的副产品而形成，而且这一切发生在没有任何显式视觉监督的情况下。这类似于人类儿童在学习和实践过程中逐渐建立起对物理世界的内部模型。\n\n## 技术突破：利用"心智图景"提升推理能力\n\n基于上述发现，研究团队进一步探索了如何利用这些"心智图景"来提升模型的推理能力。\n\n### 视觉Token融入思维链\n\n他们提出了两种方法来锐化和利用模型形成的心智图像，其中最引人注目的是将视觉token融入思维链（Chain of Thought）：\n\n**具体做法**：在推理过程的每一步，将模型内部生成的视觉表征（编码为16个视觉token）显式地整合到思维链中。\n\n**效果**：这种简单的改进带来了显著的性能提升：\n- 平均解决率从**83%提升到89%**\n- 在推理密集型任务（如拼图和3D心理旋转）上提升尤为明显\n\n### 为什么有效？\n\n这一结果表明，显式地利用模型的内部视觉表征可以帮助它更好地进行空间推理。就像人类在解决复杂问题时会在脑中"画出示意图"一样，让AI显式地"思考"视觉信息能够显著提升其推理能力。\n\n## 哲学与技术意义\n\n这项研究的意义远超技术层面，它触及了AI认知的本质问题。\n\n### 对AI认知的启示\n\n**涌现能力**：心智图景的形成不是被显式编程的结果，而是作为学习解决空间任务的副产品自然涌现的。这提示我们，复杂的认知能力可能通过足够强大的学习和优化自然产生。\n\n**内部表征的价值**：模型内部形成的视觉表征并非"幻觉"或"噪声"，而是真正有用的信息结构，可以被进一步利用来提升性能。\n\n**类人认知路径**：AI发展出了类似人类的认知策略——在面对空间推理任务时形成内部视觉表征。这可能暗示了智能系统解决此类问题的普适性方法。\n\n### 技术启示\n\n**新的优化方向**：这一发现为提升多模态模型的推理能力开辟了新途径——通过显式地利用和优化内部视觉表征。\n\n**效率与性能的平衡**：仅需16个视觉token就能带来显著的性能提升，这表明内部表征的利用可以是高效且实用的。\n\n**可解释性的新视角**：通过分析模型的内部激活，我们可能能够"解读"AI的"思维过程"，这为AI可解释性研究提供了新工具。\n\n## 局限与未来方向\n\n尽管这项研究取得了重要突破，但仍有一些局限值得注意：\n\n### 当前局限\n\n- **任务范围**：实验主要集中在空间推理任务，尚不清楚这一机制是否适用于其他类型的推理\n- **模型规模**：研究基于Qwen3.5 VLM，更大或更小的模型可能表现出不同的特性\n- **表征质量**：形成的视觉世界模型被描述为"不完美的"，其精确度和鲁棒性仍需进一步研究\n\n### 未来方向\n\n1. **扩展任务类型**：探索在更广泛的推理任务中是否存在类似的内部表征\n2. **表征可视化**：开发技术来可视化和理解模型形成的"心智图景"\n3. **主动利用**：设计更精细的方法来主动引导和优化内部表征的形成\n4. **跨模态扩展**：研究在其他模态（如听觉、触觉）中是否存在类似的内部表征\n\n## 结语：向理解的深度迈进\n\n这项研究以一种诗意的方式回答了标题中的问题：是的，多模态模型确实会"想象"。当它们解决关于绵羊的谜题时，神经网络中确实会形成关于绵羊的某种内部表征。\n\n但这不仅仅是关于"AI是否会做梦"的哲学探讨。更重要的是，这一发现为我们理解和改进AI系统提供了全新的视角。通过认识到AI内部形成的视觉表征具有实际价值，我们找到了提升推理能力的新途径。\n\n也许在不远的将来，我们能够开发出不仅能"想象"，还能主动利用这些想象来更好地理解和创造的真智能系统。届时，罗伊的问题可能不再只是诗意，而是我们理解AI内心世界的真实窗口。