章节 01
导读:GPT-2句法回路的机械可解释性研究
本文针对GPT-2 Small模型,综合运用线性探测、因果激活修补和稀疏自编码器三种核心技术,系统性探索其如何编码和利用词性信息,旨在揭开大型语言模型(LLM)内部的“黑箱”工作机制,为可解释AI的发展提供实践路径。
正文
本文介绍了一项针对GPT-2 Small的机械可解释性研究,通过线性探测、因果激活修补和稀疏自编码器三种技术,系统性地揭示了大型语言模型如何编码和利用词性信息。
章节 01
本文针对GPT-2 Small模型,综合运用线性探测、因果激活修补和稀疏自编码器三种核心技术,系统性探索其如何编码和利用词性信息,旨在揭开大型语言模型(LLM)内部的“黑箱”工作机制,为可解释AI的发展提供实践路径。
章节 02
词性是语言学基础概念,标识词语语法角色(如名词、动词),对人类理解句子结构和LLM的语法处理、词语预测至关重要。GPT-2 Small虽规模较小(约1.17亿参数),但已展现强语言能力,理解其词性处理方式有助于推广大模型研究,为可解释、可控AI系统奠基。
章节 03
线性探测通过训练简单分类器验证模型内部表示是否包含目标信息。本研究从GPT-2各层提取残差流激活,训练线性/MLP探测器,使用CoNLL-2003词性数据集。结果显示:词性信息分布于多层,中间层线性可分离性最佳;非线性探测器仅边际提升,说明大部分词性信息以线性形式编码,利于知识提取与模型压缩。
章节 04
该技术解决“哪些组件有因果责任”问题:对比“干净”与“损坏”输入的模型行为,修补特定注意力头激活观察输出恢复情况。评估指标为关键词元的logit差异,生成层-头热力图。结果表明:少数注意力头对动词选择有显著影响,且为分布式贡献,符合Transformer多头注意力的设计理念。
章节 05
SAE将高维激活分解为稀疏可解释特征,架构含编码器、解码器及稀疏惩罚项。本研究通过SAE分析动词词元特征激活,发现残差流可分解为句法相关稀疏特征,部分特征持续激活于动词,为理解模型内部概念组织提供窗口。
章节 06
线性探测回答“信息是否存在”,因果修补定位“责任组件”,SAE解析“表示构成”,三者互补形成完整分析路径:从表示分析到因果解释再到特征分解,可推广至句法依存、语义角色等其他语言学信息及非语言任务。
章节 07
本研究对AI领域的启发包括:模型安全对齐(精确引导行为)、模型编辑修复(靶向修正错误)、高效微调(线性变换适配新任务)、大规模模型可解释性(方法论扩展)。
章节 08
机械可解释性正从学术好奇转向实用工具,本研究展示了解剖LLM句法回路的系统方法。虽距完全理解大模型仍有距离,但该项目提供完整代码与整合流程,为研究者入门机械可解释性提供优秀起点。