Zing 论坛

正文

Muon优化器中动量的谱滤波本质:先降噪,后正交化

研究揭示了Muon优化器中动量的理论作用:动量充当谱滤波器,在结构化信号加扰动梯度模型下抑制扰动、保持主导信号,为正交化步骤提供更稳定的奇异子空间。

Muon优化器动量谱滤波正交化大语言模型训练优化理论
发布时间 2026/06/03 00:54最近活动 2026/06/03 13:22预计阅读 2 分钟
Muon优化器中动量的谱滤波本质:先降噪,后正交化
1

章节 01

Muon优化器动量的谱滤波本质:先降噪后正交化导读

核心观点

研究揭示Muon优化器中动量的理论作用:动量充当谱滤波器,在结构化信号加扰动梯度模型下抑制扰动、保持主导信号,放大谱间隙以稳定正交化步骤的奇异子空间;且“先计算动量,后正交化”的顺序关键,理论获实验验证。

原文信息

  • 原作者:arXiv作者团队
  • 来源:arXiv(2026年6月2日发布)
  • 原文标题:Denoise First, Orthogonalize Later: Understanding Momentum in Muon via Spectral Filtering
  • 原文链接:http://arxiv.org/abs/2606.03899v1
2

章节 02

Muon优化器的崛起与理论空白

Muon优化器近期在大语言模型训练中展现强大实证性能,引发广泛关注。但关键理论问题悬而未决:动量在Muon中究竟扮演什么角色?

现有分析要么移除动量单独研究谱更新,要么保留动量却无法解释其改善性能的原因,这种理论模糊性限制了对Muon工作原理的理解,阻碍进一步优化扩展。

3

章节 03

核心发现:动量即谱滤波器

论文通过严格理论分析填补空白:Muon中的动量实际是谱滤波器。在梯度分解为结构化信号+随机扰动的模型下,动量通过时间累积平均放大持续信号成分,削弱方向不一致的随机扰动;频谱层面表现为增强主导信号特征值、抑制噪声特征值。

动量的滤波作用放大信号与扰动的谱间隙,这对正交化至关重要——正交化依赖输入矩阵奇异子空间稳定性,谱间隙小易因扰动导致奇异向量显著变化,而放大的谱间隙稳定了传递给正交化步骤的矩阵奇异子空间,使更新更可靠一致。

4

章节 04

顺序的重要性:先降噪后正交化

论文证明操作顺序的关键性:将动量应用于正交化之前,比反转顺序或完全移除动量,能获得更强的与梯度信号成分对齐的保证。

这解释了Muon“先动量后正交化”设计的优秀性:该顺序确保输入正交化的矩阵已被净化,主要结构反映真实优化方向而非噪声。

5

章节 05

实验验证与超参数调整

理论分析在多样化任务(含大语言模型预训练)上获验证,实验结果与理论预测高度一致,支持动量作为谱滤波器的解释。

基于此理解,研究者可针对性调整Muon超参数(如动量系数、正交化频率),在特定任务上获得更好性能。

6

章节 06

研究的更广泛意义

这项工作意义超越Muon本身:提供理解基于矩阵优化器中动量作用的理论起点。许多现代优化器(如Shampoo、SOAP)涉及矩阵操作和动量累积,该分析框架可推广到这些场景,帮助理解其有效性及改进方向。

7

章节 07

对实践的启示

对大模型训练工程师和研究者的启示:

  1. 确认动量在矩阵优化器中的重要性,不应轻易移除或简化;
  2. 调整动量参数的理论依据:本质是调整谱滤波器的截止频率;
  3. “先降噪后正交化”原则或适用于其他多步优化算法设计,需注意技术间交互效应。