GYRO优化器：用几何投影为Adam注入「陀螺稳定」机制

章节 01

导读 / 主楼：GYRO优化器：用几何投影为Adam注入「陀螺稳定」机制

引言：优化器面临的「峡谷困境」

在深度学习训练中，优化器的选择往往决定了模型能否收敛到理想的损失平面。尽管Adam及其变体（如AdamW）已成为业界标准，但它们在面对特定几何结构的损失景观时仍存在明显短板。其中最具代表性的问题就是「狭窄峡谷」（narrow ravines）——在这些区域，梯度会在陡峭的壁面之间来回震荡，导致优化路径呈锯齿状前进，收敛速度大幅减慢。

传统的Adam优化器通过坐标级的方差缩放来部分缓解这一问题，但它将每个参数独立对待，忽略了连续梯度向量之间的方向关系。这种「近视」行为使得Adam难以感知到梯度正在反复穿越峡谷壁面的振荡模式。

GYRO的核心思想：几何稳定层

GYRO（Geometric Yielded Rotor Optimization）是一种全新的优化器设计，它巧妙地在Adam的动量更新之前插入了一个几何投影步骤。这个设计的灵感来源于克利福德代数（Clifford algebra）中的旋子力学，通过保持梯度范数不变的投影操作，实现对振荡方向的智能修正。

与Adam相比，GYRO的关键创新在于：它不再将梯度视为孤立的向量，而是关注当前梯度与历史动量方向之间的几何关系。当检测到两者指向相反方向时（即余弦相似度为负），GYRO会主动剔除梯度中沿动量方向的振荡分量，从而「拉直」优化轨迹。

算法机制：三步投影法

GYRO的修正过程由三个紧密衔接的阶段组成，每个阶段都保持了计算的简洁性和数值稳定性：

第一步：识别振荡分量

首先，算法计算当前梯度 $g_t$ 在动量缓冲区 $m_t$ 方向上的投影。这里选择 $m_t$ 而非单一的前一步梯度，是因为 $m_t$ 代表了历史梯度方向的平滑累积，能够提供更稳定的振荡检测基准：

$$\text{proj} = \frac{\langle g_t, m_t \rangle}{|m_t|^2} \cdot m_t$$

第二步：软投影修正

接下来，根据检测到的振荡分量进行软投影剔除。proj_factor 参数控制剔除强度——当设为1.0时完全移除振荡分量，设为0.5时则只移除一半，为调参提供了灵活性：

$$g_{\text{proj}} = g_t - \lambda \cdot \text{proj}, \quad \lambda \in [0, 1]$$

第三步：范数保持归一化

最后，为了确保修正后的梯度不会意外改变更新幅度，算法对投影后的梯度进行范数保持的重新缩放。这一步至关重要，因为它保证了GYRO只是改变了梯度的方向，而非其「强度」：

$$\tilde{g}t = g{\text{proj}} \cdot \frac{|g_t|}{|g_{\text{proj}}|}$$

经过这三步处理后的 $\tilde{g}_t$ 将替代原始梯度 $g_t$，进入Adam的指数移动平均缓冲区更新流程。

工程实现：零额外开销的优雅设计

GYRO的设计充分考虑了实际部署的需求。投影操作在每个参数张量上独立进行，无需跨层同步，这意味着它可以无缝融入数据并行和模型并行训练框架。所有中间计算都使用float32精度以确保数值稳定性，同时支持混合精度训练。

从复杂度角度看，GYRO每步每张量仅需一次点积和两次范数计算，不引入任何额外状态变量。时间和空间复杂度均保持为 $O(N)$，与Adam完全一致。这种「免费午餐」式的改进使得GYRO可以作为Adam的即插即用替代品，无需修改现有训练代码的其他部分。

实验验证：从基准数据集到合成函数

项目作者在MNIST和CIFAR-10上进行了系统的对比实验，测试了SGD、Adam、AdamW和GYRO四种优化器的表现。

短期训练（3轮）

在仅训练3轮的情况下，所有优化器的准确率都聚集在噪声范围内，差异不显著。这符合预期——GYRO的投影机制需要积累足够的动量历史才能激活。

长期训练（15轮）

当训练轮数扩展到15轮后，GYRO的优势开始显现。在MNIST上，GYRO达到了最低的训练损失（0.0052），并与最佳准确率（99.13%）持平。在更具挑战性的CIFAR-10上，GYRO更是取得了最高的最佳准确率（70.64%）和最低的训练损失（0.3843）。

值得注意的是，这些优势主要体现在损失曲线和最佳轮次指标上，而非最终轮次的快照。这与GYRO作为隐式正则化器的作用机制一致——它通过稳定优化轨迹，帮助模型在训练过程中找到更优的局部极小值。

合成函数测试

为了排除数据集噪声的干扰，作者还在具有已知解析解的合成函数上进行了测试。在经典的Rosenbrock函数（狭窄弯曲峡谷）上，GYRO与Adam表现持平，最终损失均为0.000225。而在不对称二次峡谷测试中，SGD未能收敛，而GYRO与Adam、AdamW一样成功到达了全局最小值。这证明了GYRO的投影机制不会干扰算法在病态损失景观上的收敛能力。

超参数调优指南

GYRO在Adam的基础上新增了两个关键超参数：

theta_base：振荡检测阈值。当梯度与动量的余弦相似度小于 -theta_base 时触发投影。较高的值会忽略微弱的振荡，适合相对平滑的损失平面。
proj_factor：软投影强度。控制每次检测到的振荡分量被剔除的比例，为算法提供了「软着陆」的能力，避免因过度修正而引入新的不稳定性。

对于一般场景，建议从默认值（theta_base=0.0, proj_factor=1.0）开始，根据训练曲线的平滑度和最终性能进行微调。

使用示例与集成

GYRO提供了与PyTorch Optimizer API完全兼容的接口，迁移成本极低：

from gyro import GYROAdam, GYROSGD

# 直接替换Adam
optimizer = GYROAdam(model.parameters(), lr=1e-3)

# 启用软投影和阈值调整
optimizer = GYROAdam(model.parameters(), lr=1e-3, theta_base=0.1, proj_factor=0.8)

# SGD变体同样支持
optimizer = GYROSGD(model.parameters(), lr=1e-2, momentum=0.9)

结语：优化器设计的新思路

GYRO的提出为深度学习优化器的设计开辟了一条新路径——不再仅仅关注如何更精确地估计二阶信息，而是从几何视角审视梯度更新的方向稳定性。这种「陀螺稳定」机制虽然概念上借鉴了经典力学，但其实现却异常简洁优雅，体现了算法设计中「少即是多」的哲学。

对于正在寻找更稳定训练方案的深度学习从业者而言，GYRO提供了一个值得尝试的新选择。特别是在需要长时间训练的大型模型场景中，GYRO通过抑制早期阶段的振荡积累，有望在训练后期带来更优的收敛质量。随着Transformer等架构的持续演进，这种关注梯度方向几何关系的优化思路或许会催生更多创新。