章节 01
导读:使用稀疏自编码器量化LLM特征空间普适性
本研究聚焦不同大语言模型(LLM)的特征空间几何相似性问题,通过稀疏自编码器(SAE)分解模型内部激活模式为可解释特征集合,采用激活相关性配对跨模型特征,并利用SVCCA、RSA等方法量化特征空间的普适性。研究旨在揭示不同架构/规模模型是否共享内部表征规律,为机械可解释性、模型对齐安全及知识迁移提供新工具与视角。
正文
一项关于不同大语言模型稀疏自编码器特征空间几何相似性的前沿研究,通过激活相关性配对特征并测量解码器权重几何的关系相似性。
章节 01
本研究聚焦不同大语言模型(LLM)的特征空间几何相似性问题,通过稀疏自编码器(SAE)分解模型内部激活模式为可解释特征集合,采用激活相关性配对跨模型特征,并利用SVCCA、RSA等方法量化特征空间的普适性。研究旨在揭示不同架构/规模模型是否共享内部表征规律,为机械可解释性、模型对齐安全及知识迁移提供新工具与视角。
章节 02
随着LLM快速发展,核心问题:不同架构/规模模型是否学习相似内部表征?传统认为模型独立发现语言规律,但越来越多证据显示可能共享“通用语言”。稀疏自编码器(SAE)可分解激活模式为语义特征,但跨模型特征未必直接对齐。本研究创新点:即使单个特征无法直接对齐,特征空间几何结构是否仍存在相似性?
章节 03
通过激活相关性配对不同模型SAE特征:相同输入文本上激活模式相似的特征被视为潜在对应,比标签匹配更灵活。
探讨相似性在不同语义子空间的变化(如数学推理vs情感分析子空间的跨模型对齐差异)。
章节 04
提供pythia_feature_mapping_viz.py脚本生成自包含HTML页面,含两个UMAP面板(对应两模型SAE特征空间)。相同文本批次输入两模型,特征通过批量激活相关性映射,解码器方向用UMAP降维,用户可悬停/选择高亮跨面板对应特征。
支持Pythia系列模型跨层/跨规模比较,通过命令行参数配置批次大小、序列长度、随机运行次数及模型层范围。
章节 05
为机械可解释性提供新工具,揭示模型内部概念组织可能遵循跨模型普遍规律。
若特征空间存在几何相似性,可开发通用监控干预方法(如某模型安全特征模式可迁移至其他模型)。
特征空间普适性为知识迁移提供理论基础,助力设计高效迁移学习策略,减少新模型训练资源。
章节 06
项目代码库结构清晰(主脚本、分析笔记本、云端辅助脚本、文档),安装支持conda/pip,提供Windows配置脚本。复现示例:比较Pythia 70M和160M模型特征空间可通过shell脚本完成,支持自定义批次大小、最大序列长度及分析层范围。
章节 07
当前研究主要关注Pythia系列模型,未来需扩展到更多架构(如Transformer变体、状态空间模型);激活相关性配对可能错过语义相关但激活模式不同的特征对应。代码库正在重构,未来将有更完善文档与使用体验。
章节 08
本研究是理解LLM内部世界的重要一步,通过量化特征空间普适性,不仅获得技术工具,更提供新视角:看似独立的庞大模型可能共同逼近语言与智能的深层真理。