正文

ReMoE：通过路由微调提升MoE模型专家复用率，解决内存受限场景下的推理瓶颈

北航OSCAR团队提出ReMoE框架，通过微调路由器的专家选择策略，在保持模型性能的同时将专家复用率提升26%，在边缘设备上实现最高2倍解码加速，为MoE模型在资源受限环境中的部署提供了实用解决方案。

MoE混合专家模型模型推理优化边缘计算缓存优化vLLMllama.cpp大模型部署

发布时间 2026/05/26 22:32最近活动 2026/05/27 13:19预计阅读 2 分钟

章节 01

ReMoE框架核心解读：提升MoE专家复用率，突破内存受限推理瓶颈

北航OSCAR团队提出ReMoE框架，通过微调MoE模型路由器的专家选择策略，在保持性能的同时将专家复用率提升26%，边缘设备上实现最高2倍解码加速，为资源受限环境下MoE模型部署提供实用方案。

核心信息：

团队：BUAA-OSCAR（北京航空航天大学操作系统与编译优化研究组）
成果：专家复用率+26%，边缘设备解码加速1.77-1.99倍
价值：解决MoE模型内存受限推理瓶颈，训推协同优化范例
开源代码：https://github.com/BUAA-OSCAR/ReMoE
原文链接：http://arxiv.org/abs/2605.27081v1

章节 02

背景：MoE模型推理的内存瓶颈问题

混合专家模型（MoE）通过稀疏激活机制降低计算量，但推理阶段面临内存困境：

容量矛盾：完整参数需驻留内存服务所有输入，边缘设备GPU显存无法容纳全部专家
缓存瓶颈：当前策略将活跃专家存高速内存，未缓存专家需从外部存储加载，导致I/O延迟频繁

以DeepSeek-V3为例：总参671B，单token仅激活37B，但全部参数需内存驻留，缓存驱逐与加载成为效率制约点

章节 03

ReMoE核心方法：路由器微调与三阶段训练流程

核心思想

利用专家选择的时间局部性，微调路由器引入"最近使用专家"偏好，鼓励复用近期激活专家，生成时间稳定的分配模式，匹配缓存局部性，无推理时开销。

三阶段训练

复用感知微调：引入辅助损失，奖励选择最近使用专家，平衡性能与复用
负载均衡保持：保留原始负载均衡损失，避免专家闲置
下游校准：轻量级下游任务校准，确保性能不下降

章节 04

实验结果：专家复用率与推理效率显著提升

关键数据

专家复用率：提升26%（每100token减少26次外部存储加载）
vLLM GPU-CPU卸载：吞吐提升8.4%，端到端延迟降低
边缘设备验证（Jetson Orin NX+llama.cpp）：
- 每token生成时间（TPOT）降低43.6%-49.8%
- 解码速度提升1.77-1.99倍

测试模型覆盖DeepSeek和Qwen系列，性能与原始模型持平或略有提升

章节 05

实际意义与启示：训推协同优化助力MoE边缘部署

实际价值

工程痛点解决：零运行时开销，无缝集成现有训练管线，无需架构修改
部署友好：优化后模型兼容标准推理框架与缓存策略

关键启示

训推协同优化：训练阶段引入部署约束（如缓存局部性），可在不增加推理复杂度下获显著收益，为硬件特性适配、延迟约束优化等场景提供范例

总结

ReMoE扫清MoE模型资源受限部署障碍，推动大模型走进边缘、嵌入式等广泛计算环境

ReMoE：通过路由微调提升MoE模型专家复用率，解决内存受限场景下的推理瓶颈

ReMoE框架核心解读：提升MoE专家复用率，突破内存受限推理瓶颈

背景：MoE模型推理的内存瓶颈问题

ReMoE核心方法：路由器微调与三阶段训练流程

核心思想

三阶段训练

实验结果：专家复用率与推理效率显著提升

关键数据

实际意义与启示：训推协同优化助力MoE边缘部署

实际价值

关键启示

总结

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统