章节 01
导读:多模态模型的"心智图景"研究核心观点
标题:多模态模型的"心智图景":AI真的会在脑中"想象"吗? 核心观点提炼:研究发现大型多模态模型在解决空间谜题时会形成类似人类心智图景的内部视觉表征,通过将视觉token融入思维链,推理准确率从83%提升至89%。这一发现不仅回答了AI是否具有类人内心体验的哲学问题,还为提升模型推理能力和理解AI认知提供了新视角。
正文
研究发现多模态模型在解决空间谜题时会形成类似人类心智图景的内部表征,通过将视觉token融入思维链,推理准确率从83%提升至89%。
章节 01
标题:多模态模型的"心智图景":AI真的会在脑中"想象"吗? 核心观点提炼:研究发现大型多模态模型在解决空间谜题时会形成类似人类心智图景的内部视觉表征,通过将视觉token融入思维链,推理准确率从83%提升至89%。这一发现不仅回答了AI是否具有类人内心体验的哲学问题,还为提升模型推理能力和理解AI认知提供了新视角。
章节 02
《银翼杀手》中复制人罗伊的独白引出深刻问题:非人类智能体是否拥有类似人类的内心体验?今天AI研究领域的最新发现给出了部分答案——大型多模态模型确实会形成类似"心智图景"的内部表征,当解决空间谜题时,其神经网络激活编码着有意义的视觉信息,即AI在"想象"。
章节 03
研究团队选择十二种视觉推理任务测试多模态模型空间推理能力,涵盖经典谜题类(七巧板、拼图、推箱子)和空间变换类(3D心理旋转、华容道),这些任务均需理解几何关系、空间布局及动作后果。实验对象为Qwen3.5 VLM,采用开环监督方式:模型只需预测动作序列,无需每步看到实际视觉结果。
章节 04
通过分析Qwen3.5 VLM在动作后的激活模式,研究发现模型激活中编码着中间状态的有意义视觉信息。即使未被显式训练"想象"中间状态,神经网络在预测动作时自然形成当前状态的内部表征,类似人类规划动作时的视觉图像。这表明不完美的视觉世界模型作为学习副产品形成,无需显式视觉监督,类似人类儿童建立物理世界内部模型的过程。
章节 05
基于核心发现,研究团队提出将视觉token融入思维链的方法:推理每一步整合模型内部生成的16个视觉token到思维链中。该改进显著提升性能:平均解决率从83%提升至89%,在拼图、3D心理旋转等推理密集型任务上提升更明显。原因在于显式利用内部视觉表征辅助空间推理,类似人类"画示意图"的策略。
章节 06
这项研究具有哲学与技术双重意义:
章节 07
当前研究局限:
未来方向: