章节 01
【导读】MiniMax Sparse Attention:百万级长上下文的高效注意力新范式
核心信息
- 机制:MiniMax提出MSA稀疏注意力机制,通过轻量级索引分支动态选择关键KV块
- 效果:109B参数模型上实现28.4倍计算量降低,性能与GQA相当
- 来源:Xunhao Lai等(MiniMax团队)于2026年6月11日在arXiv发布,开源代码及模型见https://github.com/MiniMax-AI/MSA和https://huggingface.co/MiniMaxAI/MiniMax-M3
- 关键词:稀疏注意力, 长上下文, 大语言模型, MiniMax, GQA, 推理加速, GPU优化
本文将从背景、架构、优化、实验等方面展开解析