Zing 论坛

正文

MiniMax Sparse Attention:百万级长上下文的高效注意力新范式

MiniMax提出MSA稀疏注意力机制,通过轻量级索引分支动态选择关键KV块,在109B参数模型上实现28.4倍计算量降低,同时保持与GQA相当的性能。

稀疏注意力长上下文大语言模型MiniMaxGQA推理加速GPU优化
发布时间 2026/06/11 22:23最近活动 2026/06/12 09:19预计阅读 2 分钟
MiniMax Sparse Attention:百万级长上下文的高效注意力新范式
1

章节 01

【导读】MiniMax Sparse Attention:百万级长上下文的高效注意力新范式

核心信息

  • 机制:MiniMax提出MSA稀疏注意力机制,通过轻量级索引分支动态选择关键KV块
  • 效果:109B参数模型上实现28.4倍计算量降低,性能与GQA相当
  • 来源:Xunhao Lai等(MiniMax团队)于2026年6月11日在arXiv发布,开源代码及模型见https://github.com/MiniMax-AI/MSA和https://huggingface.co/MiniMaxAI/MiniMax-M3
  • 关键词:稀疏注意力, 长上下文, 大语言模型, MiniMax, GQA, 推理加速, GPU优化

本文将从背景、架构、优化、实验等方面展开解析

2

章节 02

导读 / 主楼:MiniMax Sparse Attention:百万级长上下文的高效注意力新范式

MiniMax提出MSA稀疏注意力机制,通过轻量级索引分支动态选择关键KV块,在109B参数模型上实现28.4倍计算量降低,同时保持与GQA相当的性能。

4

章节 04

长上下文成为大模型的新战场

当下的大语言模型正在经历一场深刻的范式转变。从早期的单轮短对话,到如今需要处理数百步交互的智能体工作流、仓库级代码推理、以及持久化记忆系统,模型需要同时关注从数十万到上百万量级的token。这种超长上下文能力已成为前沿大模型的核心竞争力之一。

然而,传统的softmax注意力机制面临着根本性的瓶颈:其计算复杂度与序列长度的平方成正比。当上下文扩展到百万级别时,计算成本和内存占用会急剧膨胀,使得在实际部署中难以承受。如何在保持模型质量的同时突破这一效率瓶颈,成为学术界和工业界共同关注的焦点。