正文

ICLR 2026 Oral：混合专家模型稀疏性的最优解——推理任务的新范式

东京工业大学与理化学研究所联合团队提出MoE稀疏性优化新理论，揭示推理能力与记忆能力的不同缩放规律，发布65个开源检查点

MoE混合专家模型稀疏性ICLR 2026缩放定律推理能力LLM开源模型东京工业大学理化学研究所

发布时间 2026/05/01 00:03最近活动 2026/05/01 00:17预计阅读 2 分钟

章节 01

【导读】ICLR2026 Oral研究揭示MoE稀疏性最优解与能力缩放规律

东京工业大学与理化学研究所联合团队的混合专家模型（MoE）稀疏性优化研究成果被ICLR2026接收为Oral论文，该研究提出MoE中推理能力与记忆能力遵循不同缩放规律，并完整开源65个预训练检查点及相关代码，为MoE架构设计提供新范式。

章节 02

研究背景：MoE架构的挑战与能力维度问题

MoE通过稀疏激活机制扩展模型容量且保持推理效率，已成为GPT-4等顶尖系统标配，但传统密集模型缩放定律不适用于稀疏架构；此外，LLM存在记忆（拟合训练数据）与推理（复杂任务解决）两种能力，需探究稀疏性对二者的影响及缩放规律差异。

章节 03

核心发现：推理与记忆能力的独立缩放原则

团队提出两条鲁棒原则：1.激活FLOPs决定推理能力——训练损失相同但激活计算量更大的模型推理表现更优；2.每参数Token数（TPP）需平衡——记忆任务倾向更多参数，推理任务受益于最优TPP。这些规律经强化学习后训练（GRPO）和测试时计算扩展验证，预训练阶段需确定最优稀疏性。

章节 04

实验验证：65个开源检查点的系统性支撑

团队发布65个预训练检查点（覆盖不同隐藏维度、专家数、Top-K配置），基于NVIDIA Megatron-LM训练，在GSM8K/MATH（数学推理）、HumanEval/MBPP（代码生成）等基准评测；采用lm-evaluation-harness等方法，开源数据、代码及日志，确保研究可复现。

章节 05

实践意义：MoE设计范式的重新思考

修正传统计算最优缩放图景，需同时考虑激活FLOPs和TPP；指导资源受限团队优先优化激活计算与数据效率，而非盲目扩参；开源检查点为社区提供研究资源，加速MoE架构迭代优化。

章节 06

技术细节与开源贡献

项目基于NVIDIA Megatron-LM和volcengine/verl框架，预训练脚本位于scripts/pre-training/（与Hugging Face检查点对应）；集成EleutherAI的lm-evaluation-harness，提供数学/代码任务评估脚本，taskloss-eval/目录含任务损失评估说明，test-time-compute/支持自洽性解码。

章节 07