章节 01
导读:剑桥MPhil论文开源——在Qwen3-4B上复现Anthropic机械可解释性研究
剑桥大学DAMPT系的Iuliia Vitiugova近日开源硕士论文项目,成功在开源大语言模型Qwen3-4B上复现Anthropic《论大型语言模型的生物学》研究核心方法(转码器特征提取、归因图构建、因果干预验证),填补开源社区机械可解释性领域关键空白,为多语言电路分析提供完整可复现技术框架。
正文
剑桥大学DAMPT的硕士论文项目,首次在开源模型Qwen3-4B上复现了Anthropic的机械可解释性研究方法,包括转码器特征提取、归因图构建和因果干预验证,为多语言电路分析提供了完整的开源实现。
章节 01
剑桥大学DAMPT系的Iuliia Vitiugova近日开源硕士论文项目,成功在开源大语言模型Qwen3-4B上复现Anthropic《论大型语言模型的生物学》研究核心方法(转码器特征提取、归因图构建、因果干预验证),填补开源社区机械可解释性领域关键空白,为多语言电路分析提供完整可复现技术框架。
章节 02
机械可解释性旨在打开神经网络黑盒,理解内部计算机制。2025年初Anthropic发布Claude 3.5 Haiku的开创性研究,展示稀疏自编码器(Transcoders)提取可解释特征、构建归因图追踪因果交互的方法,但限于闭源模型,学术社区难以复现扩展。本项目首次将这些方法移植到完全开源的Qwen3-4B,证明技术普适性并为后续研究铺路。
章节 03
章节 04
聚焦多语言反义词预测任务(multilingual_circuits_b1),发现模型使用共享“桥接特征”处理跨语言概念:53个关键特征中60.4%(32个)在英法输入下均激活。晚期层(L22-L25)形成两个社区:一个法语特定(84%法语偏向),另一个双语平衡(89%),体现多语言处理分工策略。
章节 05
提出因果验证三属性:1. 方向性(干预特征改变输出);2. 持续性(输入改变但机制不变时激活相同特征);3. 可替代性(特征替换产生可预测输出变化)。跨语言注入测试(S2)显示75%英法概念对(6/8)有强烈迁移效应,平均效应量0.371(退化电路的7倍),为跨语言共享机制提供因果证据。
章节 06
提出四类型分类法描述大模型计算模式:1. 隐状态传递(信息层级传递转换,如地理位置推理);2. 候选集筛选(生成候选后筛选输出,如语法一致性、反义词选择);3. 抽象映射(表面输入→抽象表示→表面输出,多语言电路属此类);4. 门控决策(分类器控制信息通过/阻断/重定向,如安全过滤)。
章节 07
意义:证明小开源模型(4B参数)可实现闭源模型级可解释性分析;提供完整代码实现(提示生成、基线评估、特征提取等全套脚本);揭示跨语言共享抽象表示,指导多语言模型安全对齐、能力编辑。局限:Qwen3-4B架构限制导致部分层线性保持率弱(分布式16层流水线特性)。未来方向:扩展到更大开源模型(Qwen3-30B/Llama系列)、探索门控机制(类型4)、开发自动化电路发现工具。