Zing 论坛

正文

FusionLLM:融合 MLA、GDN 与 MoE 的高效混合架构大模型训练框架

FusionLLM 是一个研究级、生产就绪的大语言模型预训练框架,将多头潜在注意力(MLA)、门控增量网络(GDN)和混合专家(MoE)等现代架构创新融合为统一的训练系统。

LLMMLAGDNMoEMTPTransformer状态空间模型混合专家预训练PyTorch
发布时间 2026/06/09 22:14最近活动 2026/06/09 22:26预计阅读 3 分钟
FusionLLM:融合 MLA、GDN 与 MoE 的高效混合架构大模型训练框架
1

章节 01

导读 / 主楼:FusionLLM:融合 MLA、GDN 与 MoE 的高效混合架构大模型训练框架

FusionLLM 是一个研究级、生产就绪的大语言模型预训练框架,将多头潜在注意力(MLA)、门控增量网络(GDN)和混合专家(MoE)等现代架构创新融合为统一的训练系统。

3

章节 03

项目概览

FusionLLM 是一个研究级、生产就绪的大语言模型预训练框架,目标是在约 70 亿总参数规模下实现约 25 亿激活参数的高效推理。项目将近年来 LLM 领域的多项关键架构创新进行了系统性整合,包括多头潜在注意力(MLA)、门控增量网络(GDN)、混合专家(MoE)以及多 Token 预测(MTP)。

这种混合架构设计的核心理念是:不同架构组件在计算效率和表达能力上各有优势,通过精心设计的层调度策略,可以在保持模型容量的同时显著降低推理成本。

4

章节 04

多头潜在注意力(MLA)

MLA(Multi-Head Latent Attention)是 DeepSeek-V2 引入的关键技术,通过低秩 KV 压缩大幅减少推理时的内存占用。传统多头注意力需要为每个头存储完整的键值对,而 MLA 通过投影将 KV 压缩到更小的潜在空间,在几乎不损失性能的前提下显著降低缓存需求。

5

章节 05

门控增量网络(GDN)

GDN(Gated Delta Net)是 Qwen3-Next 风格的状态空间模型实现,提供常数时间复杂度的推理能力。与 Transformer 的二次方复杂度注意力机制不同,GDN 通过增量状态更新实现线性复杂度,特别适合处理长序列。FusionLLM 采用 GDN 作为 MLA 的补充,在特定层提供高效的序列建模能力。

6

章节 06

混合专家(MoE)

FusionLLM 实现了细粒度的 DeepSeekMoE 架构,配置 64 个路由专家和 6 个激活专家。这种设计允许模型在不增加推理计算量的情况下大幅扩展参数规模。通过组限制路由和无偏置 Sigmoid 门控,MoE 层能够智能地将输入 Token 路由到最相关的专家子集。

7

章节 07

多 Token 预测(MTP)

MTP 是 FusionLLM 的另一项关键特性,允许模型同时预测未来 1、2、3 个 Token。这种多步预测机制不仅加速了训练收敛,还显著提升了模型的推理能力。通过辅助预测头,模型学会从更全局的视角理解序列结构。

8

章节 08

层调度策略

FusionLLM 最独特的设计在于其混合层调度策略。项目采用 5:1 的层比例,即每 5 个 MLA 层后插入 1 个 GDN 层,总共 30 层。这种设计背后的考量是:

  • MLA 层提供强大的上下文建模能力,适合处理复杂的语义关系
  • GDN 层提供高效的序列建模,特别适合捕捉长程依赖
  • 混合调度在保持 Transformer 级表达能力的同时,逐步引入状态空间模型的效率优势

用户可以根据具体需求调整层比例,框架支持 5:1、6:1、8:1 等多种调度配置。