章节 01
【导读】HyperP框架:超球面优化重塑大模型扩展法则
微软团队提出HyperP超球面优化框架,通过超球面参数化实现学习率在不同规模模型间的可迁移性,在6e21 FLOPs计算量下实现1.58倍计算效率提升,并保证训练稳定性。该框架解决现有扩展法则的局限,结合超球面优化与扩展法则研究,为大模型规模扩展提供新范式,还提出SqrtGate优化混合专家模型,对AI基础设施建设具有深远意义。
正文
微软团队提出HyperP框架,通过超球面参数化实现学习率在不同规模模型间的可迁移性,在6e21 FLOPs计算量下实现1.58倍计算效率提升,并保证训练稳定性
章节 01
微软团队提出HyperP超球面优化框架,通过超球面参数化实现学习率在不同规模模型间的可迁移性,在6e21 FLOPs计算量下实现1.58倍计算效率提升,并保证训练稳定性。该框架解决现有扩展法则的局限,结合超球面优化与扩展法则研究,为大模型规模扩展提供新范式,还提出SqrtGate优化混合专家模型,对AI基础设施建设具有深远意义。
章节 02
当前主流扩展法则基于AdamW等一阶优化器,虽揭示性能随计算量、参数量变化规律,但无法保证大规模训练稳定性(如损失飙升、梯度爆炸等随机问题),且超参数需针对每个模型配置重新计算,缺乏可迁移性,导致大规模训练风险高、成本大。
章节 03
HyperP框架的核心贡献包括:1. 理论突破:超球面约束下权重衰减是一阶无操作,简化超参数调优;2. Depth-μP在超球面优化中仍必要,确保不同深度模型训练动态一致;3. 最优学习率随数据量变化的幂律指数保持0.32,与AdamW下一致。此外,提出SqrtGate机制,保持混合专家模型不同粒度输出RMS一致,允许更大负载均衡权重。
章节 04
实验覆盖数十亿到数千亿参数模型,结果显示HyperP在6×10^21 FLOPs预算下,计算效率比Muon优化器提升1.58倍;稳定性指标(Z值、输出RMS、激活异常值)保持有界非递增,实现可迁移的稳定性,可从小规模实验迁移到大规模训练。
章节 05
HyperP降低大规模训练风险与成本,简化超参数调优流程(小规模调优可迁移至大规模),为混合专家模型扩展提供工具,推动大模型向万亿参数时代发展,成为基础设施建设重要组成部分。
章节 06
HyperP训练代码已开源,托管于GitHub仓库(https://github.com/microsoft/ArchScale),便于复现论文结果及社区改进,加速超球面优化领域发展。
章节 07
HyperP结合超球面优化与扩展法则研究,理论与实践双重收益,为大模型规模扩展提供可靠路径。论文链接:http://arxiv.org/abs/2603.28743v1。