Zing 论坛

正文

视觉语言模型中的稀疏视觉思维回路研究

本研究探讨稀疏自编码器(SAE)在视觉语言模型中的可解释性问题,发现SAE特征并非总是形成模块化的可组合单元。研究团队开发了可复现的因果分析流程,在Qwen3-VL-8B模型上定位并测试稀疏视觉思维回路,揭示了特征组合的非模块化干扰现象。

稀疏自编码器视觉语言模型可解释性Qwen3-VL模块化回路干扰输出漂移
发布时间 2026/03/26 14:24最近活动 2026/03/27 13:49预计阅读 2 分钟
视觉语言模型中的稀疏视觉思维回路研究
1

章节 01

【主楼】视觉语言模型中稀疏视觉思维回路研究导读

本研究聚焦稀疏自编码器(SAE)在视觉语言模型(VLM)中的可解释性问题,核心探讨SAE特征是否能形成模块化可组合推理单元。研究团队开发可复现的因果分析流程,在Qwen3-VL-8B模型上测试,发现模块化假设往往不成立,存在非模块化回路干扰现象,为VLM控制提供诊断框架。

2

章节 02

【二楼】研究背景:SAE在多模态模型可解释性中的应用与争议

稀疏自编码器(SAE)已成为提升多模态模型可解释性的重要工具。然而,SAE特征是否能够形成模块化的、可组合推理单元这一假设,尚未得到充分验证——而该假设是许多基于干预的模型控制方法的基础。

3

章节 03

【三楼】方法论:可复现的因果分析流程详解

研究团队开发了可复现的因果分析流程,步骤如下:

  1. 定位层识别:使用线性探针在Qwen3-VL-8B的中间解码器层定位任务类型信息
  2. SAE训练:在该层训练稀疏自编码器
  3. 特征选择:通过显式规则构建任务选择性特征集
  4. 干预实验:执行推理时缩放和消融操作,同时量化准确率和漂移程度
4

章节 04

【四楼】核心发现:SAE特征的非模块化回路干扰现象

研究通过系统性实验发现模块化假设往往不成立:

  • 对任务选择性特征集进行干预可适度提升推理准确率
  • 对两个此类特征集的并集干预时,会可靠引发输出漂移(预测结果出现大量非预期变化)
  • 即使在范数匹配的扰动条件下,准确率也会下降 这种非模块化回路干扰表明特征并集会通过共享内部通路放大激活偏移。
5

章节 05

【五楼】实验验证:多维度的验证方法与基准设置

研究在受控合成基准上进行,包含7种任务类型和3个难度级别。验证方法包括:

  • Bootstrap子采样
  • 置换对照
  • 跨多个VLM家族的复现
  • 5个多样化数据集上的验证
6

章节 06

【六楼】研究意义:明确SAE特征可组合性边界与诊断框架价值

这项工作明确了SAE特征可组合性的边界,为更可靠的视觉语言模型控制提供了严格的诊断框架。