# LoongForge：百度开源的大规模多模态模型训练框架深度解析

> 深入剖析百度百舸AI基础设施平台推出的LoongForge训练框架，涵盖其对LLM、VLM、VLA、扩散模型的统一支持，异构并行优化策略，以及在企业级大规模集群中的实践经验。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-27T06:59:45.000Z
- 最近活动: 2026-04-27T07:22:30.369Z
- 热度: 162.6
- 关键词: LoongForge, 百度, 百舸, 大模型训练, 多模态模型, VLM, VLA, 扩散模型, Megatron-LM, 昆仑XPU, 异构并行, MoE优化, FP8训练, AI基础设施
- 页面链接: https://www.zingnex.cn/forum/thread/loongforge
- Canonical: https://www.zingnex.cn/forum/thread/loongforge
- Markdown 来源: ingested_event

---

# LoongForge：百度开源的大规模多模态模型训练框架深度解析

## 引言：训练框架的演进与挑战

随着大语言模型（LLM）、视觉语言模型（VLM）、具身智能模型（VLA）以及扩散模型的快速发展，AI训练框架面临着前所未有的挑战。不同模态的模型具有截然不同的架构特点和计算需求，传统的单一-purpose训练框架难以满足多元化的训练场景。百度百舸AI基础设施平台推出的 LoongForge，正是为了解决这一痛点而生。作为"Loong"开源系列的核心组件（与 LoongFlow 并列），LoongForge 提供了一个模块化、可扩展、高性能的统一训练框架，支持从预训练、持续预训练到监督微调（SFT）的完整训练流程。

## 项目定位与架构理念

LoongForge 基于 Megatron-LM 构建，但进行了大量增强和重构。其核心设计理念可以概括为三个关键词：模块化、可扩展、高性能。

模块化体现在框架的组件化设计上。LoongForge 将模型拆解为基础模型（Foundation）、编码器（Encoder）、多模态组合模型（Omni Models）、扩散模型（Diffusion）和具身模型（Embodied）等多个独立模块。这种设计使得开发者可以像搭积木一样组合不同的组件，快速构建新的多模态架构。

可扩展性体现在对异构硬件的支持和并行策略的灵活配置上。无论是 NVIDIA GPU 还是昆仑 XPU，LoongForge 都能提供原生高性能支持。同时，框架允许为不同模型组件（如视觉编码器 vs 大语言模型）配置独立的并行策略，实现最优的资源利用率。

高性能则体现在一系列深度的系统优化上，包括异构并行、解耦编码器-解码器训练、数据并行负载均衡、MoE All2All 优化等，这些优化使得 LoongForge 相比标准基线通常能实现30%以上的加速。

## 核心技术特性详解

### 灵活的组合式架构

LoongForge 的一大创新是支持配置驱动的 VLM 组装。开发者可以通过 YAML 配置文件，灵活地组合不同的 ViT（视觉Transformer）和 LLM 组件，无需修改代码即可创建新的多模态模型。这种"即插即用"的设计大大降低了多模态模型开发的门槛。

框架内置了丰富的模型支持，涵盖 LLaMA、Qwen、DeepSeek、MiniMax、MIMO、GLM 等主流大语言模型架构，以及 Qwen-VL、InternVL、ERNIE4.5-VL、LLaVA-OneVision 等视觉语言模型。对于扩散模型，LoongForge 支持 WAN2.2 等最新架构；对于具身智能，则支持 Pi0.5 等前沿模型。

### 异构并行与解耦训练

传统的训练框架通常采用"一刀切"的并行策略，即所有模型组件使用相同的张量并行、流水线并行配置。LoongForge 打破了这一限制，支持为不同组件分配独立的并行配置。例如，可以为计算密集型的视觉编码器配置较小的张量并行度，而为内存密集型的语言模型配置较大的并行度，从而在吞吐量和内存效率之间取得最佳平衡。

解耦编码器-解码器训练是另一项关键优化。在多模态训练中，视觉编码器的计算往往会成为瓶颈，导致流水线气泡（pipeline bubbles）。LoongForge 支持将视觉编码器和语言模型分离为独立的训练任务，彻底消除编码器对语言模型吞吐量的阻塞，显著提升多节点扩展效率。

### 数据并行负载均衡与 MoE 优化

数据打包（data packing）是提升训练效率的常用技术，但会导致不同数据并行 rank 之间的负载不均衡。LoongForge 实现了负载感知的数据重分布算法，能够动态优化数据并行中的负载不平衡问题，改善多节点扩展效率。

对于混合专家模型（MoE），LoongForge 提供了专门的 All2All 优化。通过重叠 All2All 通信、激活值卸载（activation offloading）和计算，框架能够在保持较低内存占用的同时，优化大规模 MoE 模型的通信效率。实测表明，LoongForge 的 MoE 内存占用低于上游 Megatron-LM。

### 自适应 FP8 精度训练

FP8 低精度训练是降低训练成本、提升训练速度的重要手段。LoongForge 提供了端到端的 FP8 训练支持，覆盖 LLM 和 VLM。更进一步，框架引入了自适应 FP8 机制，能够根据 GEMM 形状和计算效率自动判断是否启用 FP8，在保证数值稳定性的前提下最大化训练性能。

### 自定义融合算子与检查点转换

LoongForge 包含一系列高性能融合算子，如 FusedDSA（融合动态稀疏注意力），它集成了 flashmla 和前向索引算子，并配备了自定义反向算子，专门用于加速 DSA 模型的训练。基于 TileLang 的算子已经开源，开发者可以自由使用和扩展。

在检查点管理方面，LoongForge 支持离线双向的 Megatron 与 HuggingFace 权重转换，以及原生的在线 HuggingFace 检查点加载/保存。这种灵活的检查点转换能力消除了训练流程中的格式障碍，使得模型可以在不同框架之间无缝迁移。

## 模型支持矩阵

LoongForge 的模型支持覆盖当前主流的前沿架构：

**大语言模型（LLM）**：
- DeepSeek 系列：V2、V3、V3.2
- LLaMA 系列：2、3、3.1（支持到405B参数）
- Qwen 系列：Qwen、Qwen1.5、Qwen2、Qwen2.5、Qwen3（含MoE变体）、Qwen3-Next
- 其他：MiniMax M2、MIMO、GLM5

**视觉语言模型（VLM）**：
- Qwen2.5-VL、Qwen3-VL、Qwen3.5、Qwen3.6
- ERNIE4.5-VL
- LLaVA-OneVision-1.5
- InternVL 2.5、3.5
- 支持自定义 ViT + LLM 组合

**扩散模型（Diffusion）**：
- WAN2.2 I2V

**具身智能模型（VLA）**：
- Pi0.5

这种广泛的模型支持使得 LoongForge 能够满足从基础研究到产业应用的多样化需求。

## 异构硬件支持：GPU 与 XPU 的统一平台

LoongForge 的一大亮点是对异构硬件的原生支持。框架通过最小侵入式的插件设计，同时支持 NVIDIA GPU 和昆仑 XPU 两种计算平台。

对于 NVIDIA GPU，LoongForge 针对 Hopper 架构（H100）进行了深度优化，支持最新的计算特性。Docker 构建系统允许用户根据目标硬件（如 hopper 架构）定制镜像，并可选启用 LeRobot 等组件。

对于昆仑 XPU，LoongForge 提供了完整的支持文档和示例脚本，包括 P800 平台的安装指南、LLM 预训练和 SFT 的快速入门、以及 VLM 和 VLA 的训练教程。这种对国产AI芯片的支持，对于构建自主可控的AI基础设施具有重要意义。

## 企业级部署与性能表现

在开源之前，LoongForge 已经在百度内部支撑了众多企业级应用场景，展现了强大的训练加速和扩展能力：

- **行业覆盖**：支持教育、代码生成、具身智能等多个领域的 proprietary 大模型训练
- **性能提升**：通过系统性优化，相比客户标准基线通常实现30%以上的平均加速
- **规模扩展**：无缝支持多达5000个 XPU 的超大规模集群训练

这些实践经验被沉淀到开源版本中，使得 LoongForge 不仅是一个研究工具，更是一个经过生产验证的企业级训练平台。

## 与开源生态的协同

LoongForge 积极拥抱开源生态，与多个优秀项目形成协同：

- **Qianfan-VL**：百度开源的领域增强通用视觉语言模型
- **LLaVA-OneVision-1.5**：基于 LoongForge 早期版本构建的完全开放多模态训练框架

同时，LoongForge 也受益于 Megatron-LM、Transformers、LLaMA-Factory、Megatron-Bridge 等开源社区的贡献，体现了开源协作的力量。

## 快速入门与使用指南

LoongForge 提供了详尽的文档和教程，帮助用户快速上手：

**GPU 平台**：
- 支持模型列表与配置
- LLM 预训练和 SFT 快速入门
- VLM 预训练和 SFT 快速入门
- VLA 训练快速入门
- WAN 扩散模型训练

**昆仑 XPU 平台**：
- P800 安装指南
- LLM 预训练和 SFT 快速入门
- VLM 和 VLA 训练教程

框架采用 Hydra 进行配置管理，所有模型架构和数据配置都通过 YAML 文件定义，示例启动脚本位于 examples/ 目录下，用户可以根据需要修改和扩展。

## 未来路线图

LoongForge 团队已经规划了丰富的发展路线：

**模型扩展**：
- 扩展基础模型支持（如 Kimi 2.6）
- 增强具身智能模型支持（DreamZero、LingBot VA）
- 加速 WAN 等扩散模型

**性能优化**：
- 进一步提升 kernel 性能
- 优化全异构 DP 的内存开销
- 改进并行策略兼容性

**高级特性**：
- 高级 MoE 负载均衡策略
- 支持 INT4 量化感知训练（如 Kimi 2.5 的方法）
- 增强长序列训练（ChunkPipe 调度、Context Parallelism）
- MTP 扩展在推测解码中的应用

## 总结与展望

LoongForge 的发布标志着国产AI训练框架的重要进步。作为一个统一支持 LLM、VLM、VLA、扩散模型的训练平台，LoongForge 不仅在技术上实现了多项创新，更在工程实践中证明了其企业级可靠性。

对于AI研究者和工程师而言，LoongForge 提供了一个功能完备、性能优越、文档完善的训练工具。其对异构硬件的支持，特别是对昆仑 XPU 的兼容，为构建多元化的AI算力生态提供了新的选择。

随着多模态模型和具身智能的持续发展，像 LoongForge 这样的统一训练框架将发挥越来越重要的作用。期待 LoongForge 社区能够持续繁荣，为开源AI基础设施贡献更多力量。