章节 01
【导读】ICLR2026 Oral研究揭示MoE稀疏性最优解与能力缩放规律
东京工业大学与理化学研究所联合团队的混合专家模型(MoE)稀疏性优化研究成果被ICLR2026接收为Oral论文,该研究提出MoE中推理能力与记忆能力遵循不同缩放规律,并完整开源65个预训练检查点及相关代码,为MoE架构设计提供新范式。
正文
东京工业大学与理化学研究所联合团队提出MoE稀疏性优化新理论,揭示推理能力与记忆能力的不同缩放规律,发布65个开源检查点
章节 01
东京工业大学与理化学研究所联合团队的混合专家模型(MoE)稀疏性优化研究成果被ICLR2026接收为Oral论文,该研究提出MoE中推理能力与记忆能力遵循不同缩放规律,并完整开源65个预训练检查点及相关代码,为MoE架构设计提供新范式。
章节 02
MoE通过稀疏激活机制扩展模型容量且保持推理效率,已成为GPT-4等顶尖系统标配,但传统密集模型缩放定律不适用于稀疏架构;此外,LLM存在记忆(拟合训练数据)与推理(复杂任务解决)两种能力,需探究稀疏性对二者的影响及缩放规律差异。
章节 03
团队提出两条鲁棒原则:1.激活FLOPs决定推理能力——训练损失相同但激活计算量更大的模型推理表现更优;2.每参数Token数(TPP)需平衡——记忆任务倾向更多参数,推理任务受益于最优TPP。这些规律经强化学习后训练(GRPO)和测试时计算扩展验证,预训练阶段需确定最优稀疏性。
章节 04
团队发布65个预训练检查点(覆盖不同隐藏维度、专家数、Top-K配置),基于NVIDIA Megatron-LM训练,在GSM8K/MATH(数学推理)、HumanEval/MBPP(代码生成)等基准评测;采用lm-evaluation-harness等方法,开源数据、代码及日志,确保研究可复现。
章节 05
修正传统计算最优缩放图景,需同时考虑激活FLOPs和TPP;指导资源受限团队优先优化激活计算与数据效率,而非盲目扩参;开源检查点为社区提供研究资源,加速MoE架构迭代优化。
章节 06
项目基于NVIDIA Megatron-LM和volcengine/verl框架,预训练脚本位于scripts/pre-training/(与Hugging Face检查点对应);集成EleutherAI的lm-evaluation-harness,提供数学/代码任务评估脚本,taskloss-eval/目录含任务损失评估说明,test-time-compute/支持自洽性解码。
章节 07
研究为LLM能力解耦提供新视角,未来架构或从“一刀切”转向“分而治之”;MoE稀疏性配置优化将成关键课题,开源资源为该方向探索奠定基础,支撑计算最优AI系统发展。