Zing 论坛

正文

FindingLLMFeatures:探索大语言模型中的几何特征表示

一个探索GPT-2 Small中多维几何特征表示的开源项目,试图发现周期性概念在激活空间中形成的圆形、环形等几何结构,为AI可解释性研究提供新视角。

大语言模型可解释性特征工程几何表示GPT-2Transformer机器学习深度学习AI安全
发布时间 2026/05/08 09:44最近活动 2026/05/08 10:34预计阅读 2 分钟
FindingLLMFeatures:探索大语言模型中的几何特征表示
1

章节 01

【导读】FindingLLMFeatures项目:探索大语言模型中的几何特征表示

FindingLLMFeatures是一个探索GPT-2 Small中大语言模型多维几何特征表示的开源项目,旨在发现激活空间中周期性概念形成的圆形、环形等几何结构,挑战传统的线性表示假设,为AI可解释性研究提供新视角。

2

章节 02

背景与理论基础

长期以来AI可解释性领域假设大语言模型用一维线性向量表示概念,但近年研究挑战这一观点。该项目基于两篇2024年论文:Engels等证明语言模型用圆形编码周期性概念(如一周七天),Marks等探讨真/假数据集的线性结构。核心假设:GPT-2 Small中后期层以圆形、环形或晶格编码周期性和关系性数据。

3

章节 03

研究方法论

采用发现驱动方法,步骤包括:1.激活提取:用TransformerLens或nnsight从GPT-2 Small残差流提取激活值;2.流形搜索:聚类(如K-Means)+PCA,关注前两主成分方差相似且高的聚类;3.验证:对比线性探测与圆形探测(拟合sinθ和cosθ),若圆形探测损失更低则识别非线性特征。

4

章节 04

预期发现与挑战

预期发现时间相关概念的圆形表示、语言学类别的星形结构(如中心动词连接时态变位)。面临挑战:1.高维激活空间(768维)搜索难度大;2.识别几何结构后需自动化标注确定对应概念;3.需警惕Softmax或位置编码产生的伪几何结构。

5

章节 05

技术实现与工具链

基于Python生态,核心工具包括TransformerLens、nnsight(Transformer可解释性)、scikit-learn(PCA/聚类)、matplotlib/plotly(可视化)。代码模块化:激活提取模块、几何分析模块、探测验证模块、可视化模块。

6

章节 06

对AI可解释性的意义

若证实多维几何结构普遍存在,将改变AI可解释性研究范式。实践上,可带来更精确的干预手段(当前表示编辑基于线性假设),为模型压缩、知识蒸馏提供新理论基础。

7

章节 07

结论与展望

FindingLLMFeatures代表AI可解释性从线性假设走向几何理解的重要方向。虽处于早期,但方法论已开辟新可能。未来更多几何特性发现将助于理解AI工作原理,为构建更安全可控的AI系统提供关键洞察。