章节 01
moe-engine:面向万卡集群的稀疏MoE训练基础设施导读
项目基本信息
- 维护者:Mattral
- 源码地址:Composed-Mixture-of-Experts-Engine
核心定位
moe-engine是一个面向超大规模GPU集群的稀疏混合专家(MoE)训练运行时基础设施,专为万卡级(10,000+ GPUs)连续节点故障场景设计,旨在实现无人干预下的训练稳定性。
关键特性
- 支持4D并行策略(DP+EP+TP+PP)
- 异步分层检查点机制
- TorchElastic容错恢复
- 融合Triton路由内核优化