Zing 论坛

正文

MCore-Bridge:让 Megatron-Core 训练像 Transformers 一样简单的模型定义库

ModelScope 社区推出的 MCore-Bridge 为 300+ 大语言模型和 200+ 多模态大模型提供 Megatron-Core 模型定义,支持 LoRA 和全参数训练,兼容 PEFT 生态,让分布式大模型训练变得简单高效。

Megatron-CoreModelScope大模型训练分布式训练LoRA多模态MoEPyTorchGPU训练Qwen
发布时间 2026/05/25 16:43最近活动 2026/05/25 16:49预计阅读 3 分钟
MCore-Bridge:让 Megatron-Core 训练像 Transformers 一样简单的模型定义库
1

章节 01

导读:MCore-Bridge——简化Megatron-Core大模型训练的开源工具

ModelScope社区推出的MCore-Bridge为300+大语言模型(LLM)和200+多模态大模型(MLLM)提供Megatron-Core模型定义,支持LoRA和全参数训练,兼容PEFT生态,打通HuggingFace到Megatron-Core的桥梁,让分布式大模型训练变得简单高效。

2

章节 02

背景:大模型训练的工程挑战

随着LLM和MLLM规模爆炸式增长,训练对工程基础设施要求极高。NVIDIA的Megatron-Core提供张量并行、流水线并行等多种高级并行策略,能高效利用多GPU集群算力,但使用门槛高:开发者需手动编写复杂模型定义代码,处理权重加载、分布式通信等底层细节,重复造轮子拖慢研究迭代速度。

3

章节 03

MCore-Bridge的诞生与定位

MCore-Bridge由ModelScope社区开发维护,2026年3月30日发布,旨在解决Megatron-Core使用痛点,提供开箱即用的Megatron-Core模型定义,核心目标是让Megatron训练像Transformers一样简单,是一套完整的工程解决方案。

4

章节 04

核心能力与技术架构

超广泛模型覆盖

支持300+纯文本LLM(如Qwen系列、DeepSeek系列、GLM系列等)和200+多模态模型(如Qwen多模态、Gemma4、GLM-4V等)。

全面硬件兼容性

支持NVIDIA GPU(A10/A100/H100/B200等)、国产昇腾NPU,兼容CUDA 12.8/13.0和PyTorch 2.0+。

灵活并行策略

继承Megatron-Core的张量并行、流水线并行、序列并行、上下文并行、专家并行、虚拟流水线并行等能力。

训练模式与生态兼容

支持全参数训练和LoRA训练,与HuggingFace PEFT生态完全兼容,支持safetensors权重格式,可与Transformers、vLLM等推理框架无缝对接。

5

章节 05

多模态训练的前沿特性

针对多模态模型需求优化:

  • FP8训练支持:利用NVIDIA Hopper架构FP8精度加速训练,提升吞吐量
  • MTP(多令牌预测):提升模型推理效率
  • 无序列填充:消除batch内序列对齐的显存浪费
  • Packing特性:打包多个短序列,提高GPU利用率
6

章节 06

实际使用示例

基础模型加载与保存

通过代码初始化分布式环境,下载模型,转换配置,创建模型并加载/保存权重(示例代码略)。

LoRA微调示例

与PEFT集成,定义LoRA配置,包装模型并保存LoRA权重(示例代码略)。

7

章节 07

生态集成与安装指南

与ms-swift深度集成

与ModelScope的ms-swift训练框架结合,保留易用性同时获得分布式训练性能,支持多种任务类型。

依赖要求

组件 最低版本 推荐版本
Python >=3.10 3.12
PyTorch >=2.0 2.8.0/2.11.0
megatron-core >=0.15,<0.18 0.17.0

安装方式

  • pip安装:pip install mcore-bridge -U
  • uv加速安装:uv pip install mcore-bridge -U --torch-backend=auto
  • 源码安装:克隆仓库后pip install -e .
8

章节 08

总结与展望

MCore-Bridge将Megatron-Core的高性能与Transformers生态易用性结合,让开发者专注模型创新。其广泛模型支持、硬件兼容和生态集成使其成为生产就绪的解决方案。未来将持续支持新模型(Day0策略),在大模型基础设施领域发挥重要作用。