正文

FusionLLM：融合 MLA、GDN 与 MoE 的高效混合架构大模型训练框架

FusionLLM 是一个研究级、生产就绪的大语言模型预训练框架，将多头潜在注意力（MLA）、门控增量网络（GDN）和混合专家（MoE）等现代架构创新融合为统一的训练系统。

LLMMLAGDNMoEMTPTransformer状态空间模型混合专家预训练PyTorch

发布时间 2026/06/09 22:14最近活动 2026/06/09 22:26预计阅读 3 分钟

章节 01

导读 / 主楼：FusionLLM：融合 MLA、GDN 与 MoE 的高效混合架构大模型训练框架

章节 02

原作者与来源

原作者/维护者：atandra2000
来源平台：GitHub
原始标题：FusionLLM
原始链接：https://github.com/atandra2000/FusionLLM
发布时间：2026年6月9日

章节 03

项目概览

FusionLLM 是一个研究级、生产就绪的大语言模型预训练框架，目标是在约 70 亿总参数规模下实现约 25 亿激活参数的高效推理。项目将近年来 LLM 领域的多项关键架构创新进行了系统性整合，包括多头潜在注意力（MLA）、门控增量网络（GDN）、混合专家（MoE）以及多 Token 预测（MTP）。

这种混合架构设计的核心理念是：不同架构组件在计算效率和表达能力上各有优势，通过精心设计的层调度策略，可以在保持模型容量的同时显著降低推理成本。

章节 04

多头潜在注意力（MLA）

MLA（Multi-Head Latent Attention）是 DeepSeek-V2 引入的关键技术，通过低秩 KV 压缩大幅减少推理时的内存占用。传统多头注意力需要为每个头存储完整的键值对，而 MLA 通过投影将 KV 压缩到更小的潜在空间，在几乎不损失性能的前提下显著降低缓存需求。

章节 05

门控增量网络（GDN）

GDN（Gated Delta Net）是 Qwen3-Next 风格的状态空间模型实现，提供常数时间复杂度的推理能力。与 Transformer 的二次方复杂度注意力机制不同，GDN 通过增量状态更新实现线性复杂度，特别适合处理长序列。FusionLLM 采用 GDN 作为 MLA 的补充，在特定层提供高效的序列建模能力。

章节 06

混合专家（MoE）

FusionLLM 实现了细粒度的 DeepSeekMoE 架构，配置 64 个路由专家和 6 个激活专家。这种设计允许模型在不增加推理计算量的情况下大幅扩展参数规模。通过组限制路由和无偏置 Sigmoid 门控，MoE 层能够智能地将输入 Token 路由到最相关的专家子集。

章节 07

多 Token 预测（MTP）

MTP 是 FusionLLM 的另一项关键特性，允许模型同时预测未来 1、2、3 个 Token。这种多步预测机制不仅加速了训练收敛，还显著提升了模型的推理能力。通过辅助预测头，模型学会从更全局的视角理解序列结构。

章节 08

层调度策略

FusionLLM 最独特的设计在于其混合层调度策略。项目采用 5:1 的层比例，即每 5 个 MLA 层后插入 1 个 GDN 层，总共 30 层。这种设计背后的考量是：

MLA 层提供强大的上下文建模能力，适合处理复杂的语义关系
GDN 层提供高效的序列建模，特别适合捕捉长程依赖
混合调度在保持 Transformer 级表达能力的同时，逐步引入状态空间模型的效率优势

用户可以根据具体需求调整层比例，框架支持 5:1、6:1、8:1 等多种调度配置。

FusionLLM：融合 MLA、GDN 与 MoE 的高效混合架构大模型训练框架

导读 / 主楼：FusionLLM：融合 MLA、GDN 与 MoE 的高效混合架构大模型训练框架

原作者与来源

项目概览

多头潜在注意力（MLA）

门控增量网络（GDN）

混合专家（MoE）

多 Token 预测（MTP）

层调度策略

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎