Zing 论坛

正文

大语言模型算术能力的几何结构:Shape-of-Addition研究解析

ICML 2026论文Shape-of-Addition通过分析大语言模型在执行多操作数加法时的残差流几何结构,揭示了算术能力的内在机制,发现了Iso-Raw-Sum Trajectory (IRST)这一关键几何模式。

大语言模型算术能力可解释性几何结构残差流机械可解释性ICML 2026神经网络分析
发布时间 2026/05/29 19:45最近活动 2026/05/29 19:52预计阅读 2 分钟
大语言模型算术能力的几何结构:Shape-of-Addition研究解析
1

章节 01

导读 / 主楼:大语言模型算术能力的几何结构:Shape-of-Addition研究解析

ICML 2026论文Shape-of-Addition通过分析大语言模型在执行多操作数加法时的残差流几何结构,揭示了算术能力的内在机制,发现了Iso-Raw-Sum Trajectory (IRST)这一关键几何模式。

3

章节 03

研究背景与问题

大型语言模型(LLM)在各类自然语言处理任务中展现出了惊人的能力,但在基础算术运算方面却表现出令人困惑的脆弱性。这种矛盾现象暗示着模型内部计算机制与离散输出之间存在着某种断层。为什么一个能够生成流畅散文、编写复杂代码的模型,却在简单的加法运算上频频出错?

传统的研究往往将LLM视为黑盒,通过输入输出的行为分析来推测其内部机制。然而,这种方法难以揭示模型在处理算术运算时的真实内部表征。RL-MIND团队的研究采用了不同的思路:通过分析模型在执行多操作数加法时的残差流(residual stream)几何结构,试图从内部视角理解LLM的算术能力。

4

章节 04

核心发现:Iso-Raw-Sum Trajectory (IRST)

研究团队的核心发现是一种称为**Iso-Raw-Sum Trajectory (IRST)**的几何结构。这一发现揭示了LLM在执行加法运算时,其内部表示空间遵循着特定的几何轨迹。

5

章节 05

什么是残差流几何?

在Transformer架构中,残差流是指信息从输入层到输出层的传递路径。每一层的输出都会与输入相加(残差连接),形成信息流。通过分析这个流的几何特性,研究人员可以观察到模型在处理特定任务时的内部状态变化。

6

章节 06

IRST的关键特征

研究发现,在执行多操作数加法时,模型的残差流呈现出以下特征:

  1. 等和轨迹(Iso-Sum Trajectory):具有相同原始和(raw sum)的输入在残差空间中沿着相似的轨迹移动
  2. 几何一致性:不同层之间的表示保持了算术结构的一致性
  3. 层级演化:随着层数加深,算术表示逐渐从隐式向显式转化
7

章节 07

实验设计

研究团队设计了一系列精心控制的实验来探究LLM的算术机制:

  1. 多操作数加法任务:测试模型处理不同数量操作数的加法能力
  2. 残差流追踪:通过干预分析(intervention analysis)追踪特定层和神经元的激活模式
  3. 几何分析:使用降维技术(如PCA、t-SNE)可视化高维表示空间
  4. 因果干预:通过修改中间层表示来验证特定组件的功能作用
8

章节 08

数据分析方法

项目提供了完整的数据处理和分析代码,包括:

  • 数据生成模块:创建标准化的算术测试数据集
  • 模型钩子(Hooks):用于提取和分析中间层表示
  • 几何分析工具:计算轨迹相似度、子空间投影等
  • 可视化脚本:生成论文中的各类图表