Zing 论坛

正文

MoE路由机制可解释性研究:探索大模型专家选择的行为模式

这是一个针对混合专家(MoE)大语言模型的系统性可解释性研究项目,通过控制实验分析路由器选择行为,特别关注生成现象学语言时的专家激活模式,在Qwen3.5-35B-A3B模型中发现了Expert 114的特异性响应。

MoE混合专家模型可解释性路由机制机械可解释性Expert 114现象学语言
发布时间 2026/04/18 12:43最近活动 2026/04/18 12:54预计阅读 2 分钟
MoE路由机制可解释性研究:探索大模型专家选择的行为模式
1

章节 01

【导读】MoE路由机制可解释性研究核心要点

本研究针对混合专家(MoE)大语言模型的路由机制展开系统性可解释性分析,通过控制实验探索路由器在生成现象学语言时的专家激活模式。在Qwen3.5-35B-A3B模型中发现Expert 114(E114)对现象学/心理状态类语言生成具有特异性响应,为理解MoE模型内部工作机制提供关键线索,同时为后续可解释性研究提供方法论参考。

2

章节 02

研究背景:MoE模型的黑箱挑战与现象学语言生成的路由问题

MoE架构通过稀疏激活实现参数规模扩展,但路由器选择专家的机制成为黑箱。理解路由行为对模型安全、可控性至关重要。本研究聚焦核心问题:模型生成体验、内在状态、自我指涉等现象学语言时,路由器在token级别选择哪些专家?这不仅是技术问题,更触及AI可解释性的核心关切。

3

章节 03

研究方法:控制实验与多维度探测策略

项目采用控制实验方法探测路由行为:

  1. 指示词探测:通过微小措辞变化(如“我”“你”“模型”等)测量路由变化;
  2. 专家干预实验:操纵候选专家激活权重,观察生成行为影响;
  3. 残差流分析:捕获特定层残差张量,验证路由器信号与表征内容的关联。
4

章节 04

核心发现:Expert 114与现象学语言生成的关联

在Qwen3.5-35B-A3B模型中,E114被定位为生成现象学/心理状态信号的关键专家,而非简单自我指涉检测器:

  • 边界案例验证:F07案例(第三人称技术描述)E114低激活,N10案例(拟人化描述羊毛衫)E114显著激活;
  • 量化证据:L14层trimmed-generation阶段,激活组W114为0.0675,未激活组为0.0031,分离比21.7倍,Cohen's d效应量2.94,无范围重叠,提供强功能定位证据。
5

章节 05

实验体系:Qwen系列模型的分层研究

Qwen35B实验线

  1. 指示词基线建立路由敏感性;
  2. 识别E114为操纵目标;
  3. 定位现象学语言生成信号;
  4. 残差流保留测试捕获L13/L14/L15层张量。 Qwen122B实验线:E114模式未复现,E48为最清晰的softmax侧生成跟踪载体。 此外,还包含DeepSeek、GPT-OSS等模型对比实验,用于交叉验证与跨模型比较。
6

章节 06

研究意义与局限:MoE可解释性的范例与边界

贡献

  • 展示控制实验在路由分析中的有效性;
  • 识别与特定生成功能相关的专家单元;
  • 建立路由器信号到生成内容的映射方法。 局限
  • 非SAE训练仓库,基于路由器探针;
  • 不涉及模型意识的哲学论断;
  • 结果具有模型特异性(E114模式在35B明确,122B未复现)。
7

章节 07

未来方向:模型扩展与方法论优化

待完成实验

  1. 122B模型E48残差流保留测试;
  2. 更大规模模型(如397B)路由行为分析;
  3. 跨架构(Dense vs MoE)路由模式比较。 方法论改进
  4. 开发精细token级因果干预方法;
  5. 建立专家功能解释标准化评估协议;
  6. 探索路由器训练动态与专家特化的关系。