正文

SurgeLLM：CPU/NPU混合推理运行时解锁超大稀疏MoE模型

SurgeLLM通过协调主机内存、CPU计算与NPU加速，实现超越NPU显存限制的大型稀疏MoE语言模型推理，首个目标为昇腾310P3上的Qwen3.6-35B-A3B。

MoE稀疏专家模型NPU推理昇腾混合计算边缘部署Qwen大模型推理CPU/NPU协同模型量化

发布时间 2026/05/19 17:44最近活动 2026/05/19 17:50预计阅读 2 分钟

章节 01

导读：SurgeLLM解锁超大稀疏MoE模型的CPU/NPU混合推理

SurgeLLM是一款C++实现的CPU/NPU混合推理运行时，旨在突破NPU显存限制，让超大稀疏MoE语言模型（如Qwen3.6-35B-A3B）能在昇腾310P3等边缘NPU设备上高效运行。它通过协调主机内存、CPU计算与NPU加速，采用显式控制的设计哲学，允许开发者针对具体硬件和模型特性进行精细化调优，解决MoE模型部署中的硬件瓶颈问题。

章节 02

背景：MoE模型推理的硬件瓶颈

混合专家模型（Mixture of Experts, MoE）是当前大语言模型扩展能力的重要技术路径，但存在独特部署挑战：模型权重大，远超单张NPU/GPU显存容量；专家路由动态性导致内存访问模式难预测；传统纯NPU推理方案无法应对数百GB级权重。SurgeLLM针对此痛点，打破"模型必须完全加载到NPU显存"的假设，通过CPU与NPU协同计算，让超大MoE模型在边缘设备运行。

章节 03

技术架构：主机内存+NPU计算的混合模式

SurgeLLM核心架构创新在于将完整模型权重保留在主机内存，仅将选定计算路径和缓存数据卸载到NPU。系统根据输入token的路由决策动态加载活跃专家权重到NPU执行，规避显存限制。采用模型适配器架构，首批支持Qwen3.6 MoE系列，后续可扩展至其他MoE架构而无需重写核心运行时。

章节 04

开发阶段与实现路径

SurgeLLM开发遵循渐进式验证策略：第一阶段聚焦纯文本本地推理（batch size=1），优先保证短上下文正确性再优化长上下文。实现上先构建纯CPU参考路径确保逻辑正确和数值稳定，再叠加昇腾310P3混合加速路径。采用CMake构建系统，提供模型检查、权重映射、运行时模拟等完整调试工具链，降低适配门槛。

章节 05

开发者工具链详解

SurgeLLM配备Python辅助工具覆盖全生命周期：inspect_model查看模型配置标准化表示；inspect_weights系列工具检查safetensors索引和元数据；build_manifest转换模型配置为运行时清单；query_weight和check_payload验证数据加载正确性；mock_runtime和mock_execute可在无NPU硬件时模拟推理流程和内存布局。

章节 06