Zing 论坛

正文

HyperP:超球面优化框架重塑大模型扩展法则

微软团队提出HyperP框架,通过超球面参数化实现学习率在不同规模模型间的可迁移性,在6e21 FLOPs计算量下实现1.58倍计算效率提升,并保证训练稳定性

大语言模型超球面优化模型扩展训练稳定性混合专家模型Muon优化器机器学习系统深度学习
发布时间 2026/03/31 01:51最近活动 2026/03/31 11:51预计阅读 2 分钟
HyperP:超球面优化框架重塑大模型扩展法则
1

章节 01

【导读】HyperP框架:超球面优化重塑大模型扩展法则

微软团队提出HyperP超球面优化框架,通过超球面参数化实现学习率在不同规模模型间的可迁移性,在6e21 FLOPs计算量下实现1.58倍计算效率提升,并保证训练稳定性。该框架解决现有扩展法则的局限,结合超球面优化与扩展法则研究,为大模型规模扩展提供新范式,还提出SqrtGate优化混合专家模型,对AI基础设施建设具有深远意义。

2

章节 02

背景:现有大模型扩展法则的局限

当前主流扩展法则基于AdamW等一阶优化器,虽揭示性能随计算量、参数量变化规律,但无法保证大规模训练稳定性(如损失飙升、梯度爆炸等随机问题),且超参数需针对每个模型配置重新计算,缺乏可迁移性,导致大规模训练风险高、成本大。

3

章节 03

方法:HyperP框架与超球面优化核心

HyperP框架的核心贡献包括:1. 理论突破:超球面约束下权重衰减是一阶无操作,简化超参数调优;2. Depth-μP在超球面优化中仍必要,确保不同深度模型训练动态一致;3. 最优学习率随数据量变化的幂律指数保持0.32,与AdamW下一致。此外,提出SqrtGate机制,保持混合专家模型不同粒度输出RMS一致,允许更大负载均衡权重。

4

章节 04

实验验证:效率与稳定性的双重提升

实验覆盖数十亿到数千亿参数模型,结果显示HyperP在6×10^21 FLOPs预算下,计算效率比Muon优化器提升1.58倍;稳定性指标(Z值、输出RMS、激活异常值)保持有界非递增,实现可迁移的稳定性,可从小规模实验迁移到大规模训练。

5

章节 05

意义:对AI基础设施建设的影响

HyperP降低大规模训练风险与成本,简化超参数调优流程(小规模调优可迁移至大规模),为混合专家模型扩展提供工具,推动大模型向万亿参数时代发展,成为基础设施建设重要组成部分。

7

章节 07

结语:HyperP开启大模型扩展新范式

HyperP结合超球面优化与扩展法则研究,理论与实践双重收益,为大模型规模扩展提供可靠路径。论文链接:http://arxiv.org/abs/2603.28743v1。