正文

HyperP：超球面优化框架重塑大模型扩展法则

微软团队提出HyperP框架，通过超球面参数化实现学习率在不同规模模型间的可迁移性，在6e21 FLOPs计算量下实现1.58倍计算效率提升，并保证训练稳定性

大语言模型超球面优化模型扩展训练稳定性混合专家模型Muon优化器机器学习系统深度学习

发布时间 2026/03/31 01:51最近活动 2026/03/31 11:51预计阅读 2 分钟

章节 01

【导读】HyperP框架：超球面优化重塑大模型扩展法则

微软团队提出HyperP超球面优化框架，通过超球面参数化实现学习率在不同规模模型间的可迁移性，在6e21 FLOPs计算量下实现1.58倍计算效率提升，并保证训练稳定性。该框架解决现有扩展法则的局限，结合超球面优化与扩展法则研究，为大模型规模扩展提供新范式，还提出SqrtGate优化混合专家模型，对AI基础设施建设具有深远意义。

章节 02

背景：现有大模型扩展法则的局限

当前主流扩展法则基于AdamW等一阶优化器，虽揭示性能随计算量、参数量变化规律，但无法保证大规模训练稳定性（如损失飙升、梯度爆炸等随机问题），且超参数需针对每个模型配置重新计算，缺乏可迁移性，导致大规模训练风险高、成本大。

章节 03

方法：HyperP框架与超球面优化核心

HyperP框架的核心贡献包括：1. 理论突破：超球面约束下权重衰减是一阶无操作，简化超参数调优；2. Depth-μP在超球面优化中仍必要，确保不同深度模型训练动态一致；3. 最优学习率随数据量变化的幂律指数保持0.32，与AdamW下一致。此外，提出SqrtGate机制，保持混合专家模型不同粒度输出RMS一致，允许更大负载均衡权重。

章节 04