正文

LoongForge：百度开源的大规模多模态模型训练框架深度解析

深入剖析百度百舸AI基础设施平台推出的LoongForge训练框架，涵盖其对LLM、VLM、VLA、扩散模型的统一支持，异构并行优化策略，以及在企业级大规模集群中的实践经验。

LoongForge百度百舸大模型训练多模态模型VLMVLA扩散模型Megatron-LM昆仑XPU

发布时间 2026/04/27 14:59最近活动 2026/04/27 15:22预计阅读 3 分钟

章节 01

【导读】LoongForge：百度开源的大规模多模态模型训练框架核心解析

百度百舸AI基础设施平台推出的LoongForge是一款统一支持LLM、VLM、VLA及扩散模型的开源训练框架，旨在解决不同模态模型训练的多元化场景需求。作为"Loong"开源系列核心组件，它具备模块化、可扩展、高性能特性，支持从预训练到监督微调的完整流程，并在企业级集群中验证了其加速能力与可靠性。

章节 02

背景与项目定位

随着LLM、VLM、VLA及扩散模型的快速发展，传统单一用途训练框架难以满足多元化计算需求。LoongForge基于Megatron-LM构建并增强，核心设计理念为模块化（组件化拆解模型）、可扩展（异构硬件支持+灵活并行策略）、高性能（系统级优化带来30%+加速），是百度"Loong"开源系列与LoongFlow并列的核心组件。

章节 03

核心技术特性详解

LoongForge的核心技术包括：

灵活组合式架构：配置驱动的VLM组装（YAML配置组合ViT与LLM），支持主流LLM（LLaMA、Qwen等）、VLM（Qwen-VL、InternVL等）、扩散模型（WAN2.2）及具身模型（Pi0.5）。
异构并行与解耦训练：为不同组件配置独立并行策略（如视觉编码器与语言模型），解耦编码器-解码器训练消除流水线气泡。
负载均衡与MoE优化：负载感知数据重分布解决数据并行负载不均；MoE All2All优化（重叠通信与计算、激活卸载）降低内存占用。
自适应FP8训练：端到端FP8支持，根据GEMM形状自动启用FP8以平衡性能与稳定性。
融合算子与检查点转换：FusedDSA等融合算子加速训练；支持Megatron与HuggingFace权重双向转换及在线加载。

章节 04

模型与硬件支持矩阵

模型支持：

LLM：DeepSeek系列（V2、V3、V3.2）、LLaMA系列（2、3、3.1，支持到405B参数）、Qwen系列（含MoE变体）、MiniMax M2等。
VLM：Qwen2.5-VL、ERNIE4.5-VL、LLaVA-OneVision-1.5等，支持自定义ViT+LLM组合。
扩散模型：WAN2.2 I2V。
具身模型：Pi0.5。

硬件支持：原生支持NVIDIA GPU（Hopper架构优化）与昆仑XPU（P800平台完整指南），通过插件设计实现异构统一平台。

章节 05

企业实践与生态协同

企业级部署：开源前已支撑百度内部教育、代码生成等领域大模型训练，平均加速30%+，无缝支持5000+XPU超大规模集群。 生态协同：与Qianfan-VL、LLaVA-OneVision-1.5等开源项目协同；受益于Megatron-LM、Transformers等社区贡献。

章节 06

快速入门与未来路线图

快速入门：提供GPU/XPU平台详尽文档，包括模型配置、LLM/VLM/VLA预训练/SFT快速入门、扩散模型训练指南，采用Hydra配置管理，示例脚本在examples目录。 未来路线：

模型扩展：支持Kimi 2.6、DreamZero等模型。
性能优化：提升kernel性能、优化全异构DP内存开销。
高级特性：高级MoE负载均衡、INT4量化感知训练、长序列训练优化、推测解码MTP扩展。

章节 07

总结与展望

LoongForge标志着国产AI训练框架的重要进步，作为统一多模态训练平台，兼具技术创新与企业级可靠性。它为研究者与工程师提供功能完备、性能优越的工具，且对昆仑XPU的支持助力自主可控AI基础设施建设。期待社区持续繁荣，为开源AI生态贡献更多力量。

LoongForge：百度开源的大规模多模态模型训练框架深度解析

【导读】LoongForge：百度开源的大规模多模态模型训练框架核心解析

背景与项目定位

核心技术特性详解

模型与硬件支持矩阵

企业实践与生态协同

快速入门与未来路线图

总结与展望

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现