Zing 论坛

正文

SurgeLLM:CPU/NPU混合推理运行时解锁超大稀疏MoE模型

SurgeLLM通过协调主机内存、CPU计算与NPU加速,实现超越NPU显存限制的大型稀疏MoE语言模型推理,首个目标为昇腾310P3上的Qwen3.6-35B-A3B。

MoE稀疏专家模型NPU推理昇腾混合计算边缘部署Qwen大模型推理CPU/NPU协同模型量化
发布时间 2026/05/19 17:44最近活动 2026/05/19 17:50预计阅读 2 分钟
SurgeLLM:CPU/NPU混合推理运行时解锁超大稀疏MoE模型
1

章节 01

导读:SurgeLLM解锁超大稀疏MoE模型的CPU/NPU混合推理

SurgeLLM是一款C++实现的CPU/NPU混合推理运行时,旨在突破NPU显存限制,让超大稀疏MoE语言模型(如Qwen3.6-35B-A3B)能在昇腾310P3等边缘NPU设备上高效运行。它通过协调主机内存、CPU计算与NPU加速,采用显式控制的设计哲学,允许开发者针对具体硬件和模型特性进行精细化调优,解决MoE模型部署中的硬件瓶颈问题。

2

章节 02

背景:MoE模型推理的硬件瓶颈

混合专家模型(Mixture of Experts, MoE)是当前大语言模型扩展能力的重要技术路径,但存在独特部署挑战:模型权重大,远超单张NPU/GPU显存容量;专家路由动态性导致内存访问模式难预测;传统纯NPU推理方案无法应对数百GB级权重。SurgeLLM针对此痛点,打破"模型必须完全加载到NPU显存"的假设,通过CPU与NPU协同计算,让超大MoE模型在边缘设备运行。

3

章节 03

技术架构:主机内存+NPU计算的混合模式

SurgeLLM核心架构创新在于将完整模型权重保留在主机内存,仅将选定计算路径和缓存数据卸载到NPU。系统根据输入token的路由决策动态加载活跃专家权重到NPU执行,规避显存限制。采用模型适配器架构,首批支持Qwen3.6 MoE系列,后续可扩展至其他MoE架构而无需重写核心运行时。

4

章节 04

开发阶段与实现路径

SurgeLLM开发遵循渐进式验证策略:第一阶段聚焦纯文本本地推理(batch size=1),优先保证短上下文正确性再优化长上下文。实现上先构建纯CPU参考路径确保逻辑正确和数值稳定,再叠加昇腾310P3混合加速路径。采用CMake构建系统,提供模型检查、权重映射、运行时模拟等完整调试工具链,降低适配门槛。

5

章节 05

开发者工具链详解

SurgeLLM配备Python辅助工具覆盖全生命周期:inspect_model查看模型配置标准化表示;inspect_weights系列工具检查safetensors索引和元数据;build_manifest转换模型配置为运行时清单;query_weight和check_payload验证数据加载正确性;mock_runtime和mock_execute可在无NPU硬件时模拟推理流程和内存布局。

6

章节 06

应用场景与价值

SurgeLLM适合边缘NPU部署超大MoE模型的企业应用、显存受限但需提升模型能力的AI服务、关注硬件成本的大规模部署。对昇腾生态而言,展示了国产NPU在大型MoE推理的可行性,为国产化AI基础设施软件生态提供参考实现。

7

章节 07

技术挑战与未来展望

CPU/NPU混合推理面临内存带宽瓶颈、专家切换延迟、跨平台移植复杂度等挑战。未来方向包括:智能专家缓存算法减少传输开销、支持更大batch size提升吞吐、长上下文内存优化、扩展至更多MoE模型家族。混合推理运行时将在大模型边缘部署中扮演更重要角色。