正文

FindingLLMFeatures：探索大语言模型中的几何特征表示

一个探索GPT-2 Small中多维几何特征表示的开源项目，试图发现周期性概念在激活空间中形成的圆形、环形等几何结构，为AI可解释性研究提供新视角。

大语言模型可解释性特征工程几何表示GPT-2Transformer机器学习深度学习AI安全

发布时间 2026/05/08 09:44最近活动 2026/05/08 10:34预计阅读 2 分钟

章节 01

【导读】FindingLLMFeatures项目：探索大语言模型中的几何特征表示

FindingLLMFeatures是一个探索GPT-2 Small中大语言模型多维几何特征表示的开源项目，旨在发现激活空间中周期性概念形成的圆形、环形等几何结构，挑战传统的线性表示假设，为AI可解释性研究提供新视角。

章节 02

背景与理论基础

长期以来AI可解释性领域假设大语言模型用一维线性向量表示概念，但近年研究挑战这一观点。该项目基于两篇2024年论文：Engels等证明语言模型用圆形编码周期性概念（如一周七天），Marks等探讨真/假数据集的线性结构。核心假设：GPT-2 Small中后期层以圆形、环形或晶格编码周期性和关系性数据。

章节 03

研究方法论

采用发现驱动方法，步骤包括：1.激活提取：用TransformerLens或nnsight从GPT-2 Small残差流提取激活值；2.流形搜索：聚类（如K-Means）+PCA，关注前两主成分方差相似且高的聚类；3.验证：对比线性探测与圆形探测（拟合sinθ和cosθ），若圆形探测损失更低则识别非线性特征。

章节 04

预期发现与挑战

预期发现时间相关概念的圆形表示、语言学类别的星形结构（如中心动词连接时态变位）。面临挑战：1.高维激活空间（768维）搜索难度大；2.识别几何结构后需自动化标注确定对应概念；3.需警惕Softmax或位置编码产生的伪几何结构。

章节 05

技术实现与工具链

基于Python生态，核心工具包括TransformerLens、nnsight（Transformer可解释性）、scikit-learn（PCA/聚类）、matplotlib/plotly（可视化）。代码模块化：激活提取模块、几何分析模块、探测验证模块、可视化模块。

章节 06

对AI可解释性的意义

若证实多维几何结构普遍存在，将改变AI可解释性研究范式。实践上，可带来更精确的干预手段（当前表示编辑基于线性假设），为模型压缩、知识蒸馏提供新理论基础。

章节 07

结论与展望

FindingLLMFeatures代表AI可解释性从线性假设走向几何理解的重要方向。虽处于早期，但方法论已开辟新可能。未来更多几何特性发现将助于理解AI工作原理，为构建更安全可控的AI系统提供关键洞察。

FindingLLMFeatures：探索大语言模型中的几何特征表示

【导读】FindingLLMFeatures项目：探索大语言模型中的几何特征表示

背景与理论基础

研究方法论

预期发现与挑战

技术实现与工具链

对AI可解释性的意义

结论与展望

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统