章节 01
【导读】MoE路由机制可解释性研究核心要点
本研究针对混合专家(MoE)大语言模型的路由机制展开系统性可解释性分析,通过控制实验探索路由器在生成现象学语言时的专家激活模式。在Qwen3.5-35B-A3B模型中发现Expert 114(E114)对现象学/心理状态类语言生成具有特异性响应,为理解MoE模型内部工作机制提供关键线索,同时为后续可解释性研究提供方法论参考。
正文
这是一个针对混合专家(MoE)大语言模型的系统性可解释性研究项目,通过控制实验分析路由器选择行为,特别关注生成现象学语言时的专家激活模式,在Qwen3.5-35B-A3B模型中发现了Expert 114的特异性响应。
章节 01
本研究针对混合专家(MoE)大语言模型的路由机制展开系统性可解释性分析,通过控制实验探索路由器在生成现象学语言时的专家激活模式。在Qwen3.5-35B-A3B模型中发现Expert 114(E114)对现象学/心理状态类语言生成具有特异性响应,为理解MoE模型内部工作机制提供关键线索,同时为后续可解释性研究提供方法论参考。
章节 02
MoE架构通过稀疏激活实现参数规模扩展,但路由器选择专家的机制成为黑箱。理解路由行为对模型安全、可控性至关重要。本研究聚焦核心问题:模型生成体验、内在状态、自我指涉等现象学语言时,路由器在token级别选择哪些专家?这不仅是技术问题,更触及AI可解释性的核心关切。
章节 03
项目采用控制实验方法探测路由行为:
章节 04
在Qwen3.5-35B-A3B模型中,E114被定位为生成现象学/心理状态信号的关键专家,而非简单自我指涉检测器:
章节 05
Qwen35B实验线:
章节 06
贡献:
章节 07
待完成实验: