Zing 论坛

正文

SHAPE:基于夏普利值的专家剪枝框架,让MoE大模型推理更轻量

介绍SHAPE框架如何通过夏普利值评估专家协同贡献,在不重新训练的情况下剪枝冗余专家,显著降低显存占用同时保持模型性能。

MoE模型剪枝夏普利值大语言模型专家系统模型压缩推理优化
发布时间 2026/05/29 19:12最近活动 2026/05/29 19:18预计阅读 6 分钟
SHAPE:基于夏普利值的专家剪枝框架,让MoE大模型推理更轻量
1

章节 01

导读 / 主楼:SHAPE:基于夏普利值的专家剪枝框架,让MoE大模型推理更轻量

介绍SHAPE框架如何通过夏普利值评估专家协同贡献,在不重新训练的情况下剪枝冗余专家,显著降低显存占用同时保持模型性能。

2

章节 02

原作者与来源

3

章节 03

补充观点 1

原作者与来源

  • 原作者/维护者:Alizen-1009
  • 来源平台:github
  • 原始标题:Shapley-Moe
  • 原始链接:https://github.com/Alizen-1009/Shapley-Moe
  • 来源发布时间/更新时间:2026-05-29T11:12:33Z 原作者与来源\n\n- 原作者/维护者: Alizen-1009\n- 来源平台: GitHub\n- 原始标题: Shapley-Moe\n- 原始链接: https://github.com/Alizen-1009/Shapley-Moe\n- 发布时间: 2026年5月\n- 相关论文: SHAPE: Coalition-Aware Expert Pruning for Sparse Mixture-of-Experts LLMs (IJCNN 2026)\n\n背景:MoE模型的显存困境\n\n稀疏混合专家模型(Mixture-of-Experts, MoE)已经成为当前大语言模型扩展的重要技术路径。与密集模型不同,MoE在推理时只激活少数专家,但完整的专家池仍然需要驻留在GPU显存中以支持动态路由。这种架构设计带来了显著的显存瓶颈——模型参数量可以轻松达到数百亿甚至千亿级别,但实际推理时只有一小部分参数被使用。\n\n传统的专家剪枝方法通常独立评估每个专家的价值,依据路由频率、门控概率或激活幅度等指标进行排序。然而,这些方法忽略了一个关键特性:在稀疏MoE推理中,每个token实际上是由一组协同工作的专家共同处理的。某个专家的价值可能不在于它单独出现的频率,而在于它如何补全高价值专家组的能力。\n\nSHAPE的核心思想:协同感知剪枝\n\nSHAPE(SHapley-Aware Pruning of Experts)是由Alizen-1009团队提出的训练无关剪枝框架,其核心创新在于将专家剪枝重新定义为协同归因问题。该方法借鉴博弈论中的夏普利值(Shapley Value)概念,评估专家在协同专家组中的边际贡献,而非孤立地看待每个专家。\n\n夏普利值源于合作博弈论,用于公平分配联盟中各参与者的贡献。在MoE的语境下,每个被路由激活的专家组合构成一个"联盟",而夏普利值则量化了特定专家对于这些联盟整体性能的贡献程度。这种视角转换使得SHAPE能够识别那些在协同工作中发挥关键作用的专家,即使它们的路由频率并不突出。\n\n技术实现:从校准到剪枝的完整流程\n\nSHAPE的剪枝流程包含以下几个关键步骤:\n\n1. 路由轨迹收集\n\n首先,在小型任务特定的校准数据集上运行未剪枝模型。对于每个校准token,记录MoE各层中被路由器共同激活的top-k专家组合。这些轨迹定义了该任务下观察到的专家联盟支持分布。\n\n2. 夏普利值近似估计\n\n对于每个专家,SHAPE估计其在出现的联盟中的边际价值贡献。为了计算效率,该方法使用路由频率和共现统计进行近似,避免了在大量掩码专家子集上重复前向传播的高昂成本。\n\n3. 质量覆盖选择\n\n这是SHAPE区别于其他方法的关键步骤。不同于在每层固定保留一定数量的专家,SHAPE采用夏普利质量覆盖策略:保留最小的高价值专家前缀,使其累积贡献达到该层夏普利总质量的α比例。然后通过二分搜索调整α阈值,使最终保留的专家数量匹配目标保留率。\n\n4. 紧凑模型导出\n\n最后,根据选择结果导出剪枝后的紧凑MoE模型,可直接用于推理服务。\n\n实验验证:性能与效率的平衡\n\nSHAPE在三个主流稀疏MoE骨干模型上进行了评估:Qwen3-30B-A3B、GPT-OSS-20B和DeepSeek-V2-Lite。测试涵盖GSM8K数学推理、HumanEval代码生成、GPQA-Diamond科学问答、MATH-500数学问题、TruthfulQA事实性问答、OntoNotes5命名实体识别和MedMCQA医学问答等七个基准任务。\n\n主要实验结果\n\n20%剪枝(保留80%专家):\n\n| 模型 | 基线准确率 | 剪枝后准确率 |\n|------|-----------|-------------|\n| Qwen3-30B-A3B | 82.92% | 82.43% |\n| GPT-OSS-20B | 82.12% | 82.44% |\n| DeepSeek-V2-Lite | 62.08% | 62.44% |\n\n40%剪枝(保留60%专家):\n\n| 模型 | 基线准确率 | 剪枝后准确率 |\n|------|-----------|-------------|\n| Qwen3-30B-A3B | 82.92% | 81.31% |\n| GPT-OSS-20B | 82.12% | 79.02% |\n| DeepSeek-V2-Lite | 62.08% | 58.81% |\n\n值得注意的是,在20%剪枝率下,GPT-OSS-20B和DeepSeek-V2-Lite的平均性能甚至略有提升,这表明部分专家池对于特定任务的边际效用确实有限。即使在40%的激进剪枝下,性能下降也保持在可控范围内,尤其对于更大规模的MoE骨干。\n\n与基线方法的对比\n\n在Qwen3-30B-A3B上的详细对比显示,SHAPE在激进剪枝场景下优势最为明显。当剪枝40%专家时,SHAPE的平均准确率达到81.31%,显著优于随机选择(28.76%)、频率排序(57.33%)、门控概率(59.29%)、RAEP(74.22%)和EASY-EP(79.05%)等方法。这表明在高度稀疏化的场景下,保留关键专家联盟的重要性更加凸显。\n\n显存节省效果\n\n剪枝直接减少了驻留专家数量,实测峰值显存占用在20%和40%剪枝率下均呈现稳步下降,且无需额外的训练或架构修改。这对于资源受限的部署环境具有重要意义。\n\n实际应用价值\n\nSHAPE框架为MoE模型的实际部署提供了几个关键价值:\n\n训练无关: 无需重新训练专家或修改路由器逻辑,仅需少量校准数据即可完成剪枝,大大降低了应用门槛。\n\n任务自适应: 通过任务特定的校准数据,可以针对不同下游任务优化专家选择,实现专业化的模型压缩。\n\n即插即用: 剪枝后的模型可直接用于vLLM等推理服务框架,无需修改服务架构。\n\n渐进式压缩: 支持从20%到40%甚至更高比例的灵活剪枝,用户可根据显存预算和精度要求选择合适配置。\n\n使用方式与代码结构\n\nSHAPE的代码库提供了完整的剪枝流水线,包括数据准备、路由分析、专家选择和模型导出等模块。用户只需编辑配置文件指定模型路径和实验设置,即可运行完整流程:\n\nbash\n下载校准数据\n./run_download.sh gsm8k 25\n\n收集路由轨迹\n./run_collect.sh -m qwen3-30b-a3b --all\n\n计算夏普利值并剪枝\n./run_calc_shapley.sh\n./run_prune.sh\n\n\n此外,代码库还提供了自适应LoRA微调模块,支持在剪枝后进行轻量级适配训练,进一步恢复模型性能。\n\n总结与展望\n\nSHAPE通过引入夏普利值这一博弈论工具,为MoE专家剪枝问题提供了新的解决思路。其核心洞察在于:专家的价值应当在其协同工作的上下文中评估,而非孤立看待。这种"联盟感知"的剪枝策略在保持模型性能的同时显著降低了显存占用,为MoE模型在资源受限环境的部署开辟了新的可能性。\n\n随着MoE架构在大语言模型中的普及,类似SHAPE这样的模型压缩技术将变得越来越重要。未来的研究方向可能包括:更高效的夏普利值近似算法、跨任务专家共享机制、以及与其他压缩技术(如量化、蒸馏)的联合优化。