正文

视觉语言模型中的稀疏视觉思维回路研究

本研究探讨稀疏自编码器(SAE)在视觉语言模型中的可解释性问题，发现SAE特征并非总是形成模块化的可组合单元。研究团队开发了可复现的因果分析流程，在Qwen3-VL-8B模型上定位并测试稀疏视觉思维回路，揭示了特征组合的非模块化干扰现象。

稀疏自编码器视觉语言模型可解释性Qwen3-VL模块化回路干扰输出漂移

发布时间 2026/03/26 14:24最近活动 2026/03/27 13:49预计阅读 2 分钟

章节 01

【主楼】视觉语言模型中稀疏视觉思维回路研究导读

本研究聚焦稀疏自编码器(SAE)在视觉语言模型(VLM)中的可解释性问题，核心探讨SAE特征是否能形成模块化可组合推理单元。研究团队开发可复现的因果分析流程，在Qwen3-VL-8B模型上测试，发现模块化假设往往不成立，存在非模块化回路干扰现象，为VLM控制提供诊断框架。

章节 02

稀疏自编码器(SAE)已成为提升多模态模型可解释性的重要工具。然而，SAE特征是否能够形成模块化的、可组合推理单元这一假设，尚未得到充分验证——而该假设是许多基于干预的模型控制方法的基础。

章节 03

研究团队开发了可复现的因果分析流程，步骤如下：

章节 04

研究通过系统性实验发现模块化假设往往不成立：

章节 05

研究在受控合成基准上进行，包含7种任务类型和3个难度级别。验证方法包括：

章节 06

这项工作明确了SAE特征可组合性的边界，为更可靠的视觉语言模型控制提供了严格的诊断框架。