正文

MCore-Bridge：让 Megatron-Core 训练像 Transformers 一样简单的模型定义库

ModelScope 社区推出的 MCore-Bridge 为 300+ 大语言模型和 200+ 多模态大模型提供 Megatron-Core 模型定义，支持 LoRA 和全参数训练，兼容 PEFT 生态，让分布式大模型训练变得简单高效。

Megatron-CoreModelScope大模型训练分布式训练LoRA多模态MoEPyTorchGPU训练Qwen

发布时间 2026/05/25 16:43最近活动 2026/05/25 16:49预计阅读 3 分钟

MCore-Bridge：让 Megatron-Core 训练像 Transformers 一样简单的模型定义库

章节 01

导读：MCore-Bridge——简化Megatron-Core大模型训练的开源工具

ModelScope社区推出的MCore-Bridge为300+大语言模型（LLM）和200+多模态大模型（MLLM）提供Megatron-Core模型定义，支持LoRA和全参数训练，兼容PEFT生态，打通HuggingFace到Megatron-Core的桥梁，让分布式大模型训练变得简单高效。

章节 02

背景：大模型训练的工程挑战

随着LLM和MLLM规模爆炸式增长，训练对工程基础设施要求极高。NVIDIA的Megatron-Core提供张量并行、流水线并行等多种高级并行策略，能高效利用多GPU集群算力，但使用门槛高：开发者需手动编写复杂模型定义代码，处理权重加载、分布式通信等底层细节，重复造轮子拖慢研究迭代速度。

章节 03

MCore-Bridge的诞生与定位

MCore-Bridge由ModelScope社区开发维护，2026年3月30日发布，旨在解决Megatron-Core使用痛点，提供开箱即用的Megatron-Core模型定义，核心目标是让Megatron训练像Transformers一样简单，是一套完整的工程解决方案。

章节 04

核心能力与技术架构

超广泛模型覆盖

支持300+纯文本LLM（如Qwen系列、DeepSeek系列、GLM系列等）和200+多模态模型（如Qwen多模态、Gemma4、GLM-4V等）。

全面硬件兼容性

支持NVIDIA GPU（A10/A100/H100/B200等）、国产昇腾NPU，兼容CUDA 12.8/13.0和PyTorch 2.0+。

灵活并行策略

继承Megatron-Core的张量并行、流水线并行、序列并行、上下文并行、专家并行、虚拟流水线并行等能力。

训练模式与生态兼容

支持全参数训练和LoRA训练，与HuggingFace PEFT生态完全兼容，支持safetensors权重格式，可与Transformers、vLLM等推理框架无缝对接。

章节 05

多模态训练的前沿特性

针对多模态模型需求优化：

FP8训练支持：利用NVIDIA Hopper架构FP8精度加速训练，提升吞吐量
MTP（多令牌预测）：提升模型推理效率
无序列填充：消除batch内序列对齐的显存浪费
Packing特性：打包多个短序列，提高GPU利用率

章节 06

实际使用示例

基础模型加载与保存

通过代码初始化分布式环境，下载模型，转换配置，创建模型并加载/保存权重（示例代码略）。

LoRA微调示例

与PEFT集成，定义LoRA配置，包装模型并保存LoRA权重（示例代码略）。

章节 07

生态集成与安装指南

与ms-swift深度集成

与ModelScope的ms-swift训练框架结合，保留易用性同时获得分布式训练性能，支持多种任务类型。

依赖要求

组件	最低版本	推荐版本
Python	>=3.10	3.12
PyTorch	>=2.0	2.8.0/2.11.0
megatron-core	>=0.15,<0.18	0.17.0

安装方式

pip安装：pip install mcore-bridge -U
uv加速安装：uv pip install mcore-bridge -U --torch-backend=auto
源码安装：克隆仓库后pip install -e .

章节 08

总结与展望

MCore-Bridge将Megatron-Core的高性能与Transformers生态易用性结合，让开发者专注模型创新。其广泛模型支持、硬件兼容和生态集成使其成为生产就绪的解决方案。未来将持续支持新模型（Day0策略），在大模型基础设施领域发挥重要作用。