# ICLR 2026 Oral：混合专家模型稀疏性的最优解——推理任务的新范式

> 东京工业大学与理化学研究所联合团队提出MoE稀疏性优化新理论，揭示推理能力与记忆能力的不同缩放规律，发布65个开源检查点

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-30T16:03:49.000Z
- 最近活动: 2026-04-30T16:17:19.418Z
- 热度: 154.8
- 关键词: MoE, 混合专家模型, 稀疏性, ICLR 2026, 缩放定律, 推理能力, LLM, 开源模型, 东京工业大学, 理化学研究所
- 页面链接: https://www.zingnex.cn/forum/thread/iclr-2026-oral
- Canonical: https://www.zingnex.cn/forum/thread/iclr-2026-oral
- Markdown 来源: ingested_event

---

# ICLR 2026 Oral：混合专家模型稀疏性的最优解——推理任务的新范式\n\n在大型语言模型（LLM）的演进历程中，缩放定律（Scaling Laws）一直是指导模型设计的核心准则。然而，当混合专家模型（Mixture-of-Experts, MoE）成为主流架构后，传统的密集模型缩放规律是否依然适用？东京工业大学与理化学研究所的联合研究团队在这一问题上取得了突破性进展，其成果被ICLR 2026接收为Oral论文，并完整开源了代码与65个预训练检查点。\n\n## 研究背景：MoE架构的双刃剑效应\n\n混合专家模型通过稀疏激活机制，在保持推理效率的同时大幅扩展模型容量，已成为GPT-4、DeepSeek-V3等顶尖系统的标配架构。然而，MoE引入的"稀疏性维度"使得传统的缩放定律面临挑战——当前的前沿研究大多基于密集模型，未能充分解释稀疏架构下的性能变化规律。\n\n更关键的是，MoE模型的能力并非单一维度。研究团队指出，大型语言模型实际上具备两种截然不同的能力模式：记忆能力（Memorization）与推理能力（Reasoning）。前者关乎模型对训练数据的拟合程度，后者则体现为数学推理、代码生成等复杂任务的解决能力。这两种能力是否遵循相同的缩放规律？稀疏性对它们的影响是否一致？这些问题直接关系到MoE架构的最优设计策略。\n\n## 核心发现：两条独立的缩放原则\n\n研究团队通过系统性的实验设计，在固定计算预算下训练了多组MoE模型家族，系统性地变化总参数量、激活参数量和Top-K路由参数。经过深入分析，他们提出了两条颠覆性的原则：\n\n### 原则一：激活FLOPs决定推理能力\n\n研究发现，训练损失相同的模型，若具有更大的激活计算量（Active FLOPs），则在推理任务上表现更优。这意味着，在预训练阶段，仅仅降低损失函数并不足以保证强大的推理性能——模型在推理时的实际计算投入同样至关重要。这一发现挑战了"训练损失最小化即最优"的传统认知。\n\n### 原则二：每参数Token数（TPP）的最优平衡\n\n研究揭示了记忆任务与推理任务在数据效率上的根本差异。记忆任务倾向于更多的参数，而推理任务则受益于最优的每参数Token数（Total Tokens per Parameter, TPP）。这表明推理能力对数据具有更强的"饥饿感"——单纯的参数堆砌并不能带来推理能力的线性提升，数据质量与数量的平衡才是关键。\n\n值得注意的是，这两条原则具有鲁棒性。即使经过强化学习后训练（GRPO）或增加测试时计算（Test-Time Compute），这些趋势依然保持不变。这意味着MoE的最优稀疏性必须在预训练阶段就予以确定，而非通过后期训练来弥补。\n\n## 实验验证：65个检查点的系统性研究\n\n为了支撑上述理论发现，研究团队发布了65个预训练检查点，涵盖了不同隐藏维度、专家数量和Top-K配置的完整矩阵。这些模型基于NVIDIA Megatron-LM框架训练，并在数学推理（GSM8K、MATH）和代码生成（HumanEval、MBPP）等基准上进行了全面评估。\n\n实验采用了lm-evaluation-harness进行标准化评测，同时结合任务损失评估（Task Loss Evaluation）和测试时计算扩展（Test-Time Compute Scaling）等多维度分析方法。所有训练数据均来自公开数据集，代码和训练日志也已完整开源，为后续研究提供了可复现的基础。\n\n## 实践意义：重新思考MoE设计范式\n\n这项研究对工业界和学术界都具有深远影响。首先，它修正了传统的计算最优缩放（Compute-Optimal Scaling）图景——在MoE架构下，必须同时考虑激活FLOPs和TPP两个维度，而非简单地追求参数量或计算量的最大化。\n\n其次，对于资源受限的研究团队而言，这一发现提供了明确的指导：在固定计算预算下，应当优先优化模型的激活计算效率和数据使用效率，而非盲目追求总参数量的扩张。这可能解释了为何某些MoE模型在基准测试上表现优异，却在实际推理任务中不尽如人意。\n\n最后，研究团队开源的65个检查点为社区提供了宝贵的研究资源。通过分析这些检查点的性能曲线，研究者可以直观地观察到稀疏性参数对不同类型能力的影响，从而加速MoE架构的迭代优化。\n\n## 技术细节与开源贡献\n\n项目基于NVIDIA Megatron-LM和volcengine/verl框架构建，支持从预训练到强化学习的完整流程。预训练脚本位于`scripts/pre-training/`目录，每个脚本与Hugging Face上的模型检查点一一对应，命名格式清晰地标明了隐藏维度（d）、专家数量（E）、Top-K值（k）以及总/激活参数量。\n\n评估方面，项目集成了EleutherAI的lm-evaluation-harness，并针对数学和代码任务提供了专门的评估脚本。对于任务损失评估，团队在`taskloss-eval/`目录下提供了详细的使用说明。测试时计算扩展的实现则位于`test-time-compute/`目录，支持GSM8K等基准的自洽性解码（Self-Consistency Decoding）。\n\n## 结语与展望\n\n这项研究不仅回答了MoE稀疏性优化的核心问题，更为大型语言模型的能力解耦提供了新的视角。记忆与推理作为两种本质不同的认知能力，在模型缩放过程中遵循着不同的规律——这一认识可能推动未来架构设计从"一刀切"向"分而治之"的转变。\n\n随着MoE架构在工业界的广泛应用，如何针对特定任务类型优化稀疏性配置将成为关键课题。研究团队开源的完整资源为这一方向的探索奠定了坚实基础，也为计算最优的AI系统发展提供了新的理论支撑。