章节 01
导读:Mechanistic Validity——为神经网络机械可解释性建立科学验证框架
本文介绍了Mechanistic Validity框架,这是一个融合科学哲学、神经科学、药理学和测量理论的方法论体系,旨在解决机械可解释性(MI)研究中"如何验证发现对应真实机制"的核心问题。框架包含五维验证透镜、六级验证等级、声明分类学及开源生态,为MI研究提供严谨的评估基准,推动领域从"发现"向"验证"阶段演进,对AI安全具有重要意义。
正文
一个融合科学哲学、神经科学、药理学和测量理论的方法论框架,用于系统性地验证关于神经网络的机制性声明,为机械可解释性(MI)研究提供严谨性基准。
章节 01
本文介绍了Mechanistic Validity框架,这是一个融合科学哲学、神经科学、药理学和测量理论的方法论体系,旨在解决机械可解释性(MI)研究中"如何验证发现对应真实机制"的核心问题。框架包含五维验证透镜、六级验证等级、声明分类学及开源生态,为MI研究提供严谨的评估基准,推动领域从"发现"向"验证"阶段演进,对AI安全具有重要意义。
章节 02
机械可解释性致力于识别神经网络中的"电路"(执行特定功能的最小计算单元),常用激活修补、消融实验等技术。但领域面临四大挑战:
章节 03
框架整合五个学科的验证视角("透镜"):
章节 04
基于五维框架,框架建立六级验证等级:
| 等级 | 名称 | 含义 |
|---|---|---|
| Tier1 | Proposed | 仅有结构对齐,无因果证据 |
| Tier2 | Causally Suggestive | 已建立必要性(消融导致行为退化) |
| Tier3 | Mechanistically Supported | 必要性+充分性 |
| Tier4 | Triangulated | 多个独立指标趋同 |
| Tier5 | Validated | 通过全部五个透镜检验 |
此外,框架提供六种机制声明类型:因果、结构、信息论、行为、表征、测量论,每种对应不同验证标准,避免一刀切评估。
章节 05
框架应用于已发表MI研究,结果如下:
章节 06
Mechanistic Validity项目分为三个模块化代码库:
章节 07
Mechanistic Validity标志MI领域从"发现"向"验证"演进,对AI安全意义重大:
章节 08
当前框架仍处活跃开发阶段,主要贡献是理论性,脚本为示例而非生产工具。未来方向: