章节 01
DashAttention:可微且自适应的稀疏分层注意力机制
DashAttention是2026年5月提出的创新稀疏分层注意力机制,旨在解决大型语言模型(LLM)长上下文建模中全注意力二次计算与内存开销的瓶颈。其核心优势在于利用α-entmax变换实现自适应稀疏块选择,在保持与全注意力相当精度的同时达到75%稀疏度,推理速度超越FlashAttention-3。
正文
本文介绍了 DashAttention,一种利用 α-entmax 变换实现自适应稀疏块选择的高效注意力机制,在保持与全注意力相当精度的同时实现了 75% 的稀疏度,推理速度超越 FlashAttention-3。
章节 01
DashAttention是2026年5月提出的创新稀疏分层注意力机制,旨在解决大型语言模型(LLM)长上下文建模中全注意力二次计算与内存开销的瓶颈。其核心优势在于利用α-entmax变换实现自适应稀疏块选择,在保持与全注意力相当精度的同时达到75%稀疏度,推理速度超越FlashAttention-3。
章节 02
当前分层注意力方法(如NSA和InfLLMv2)采用两阶段策略:粗粒度选top-k KV块,细粒度在选定token应用softmax注意力。但存在局限:1. 固定数量假设,无法适配不同查询的信息需求差异;2. top-k操作离散非连续,阻断梯度流动,无法端到端优化。
章节 03
DashAttention的两大创新:1. α-entmax自适应稀疏选择:根据查询需求动态选择可变数量KV块,避免top-k的一刀切问题;2. 完全可微分层架构:稀疏选择与注意力计算保持梯度连续,支持端到端优化。此外,其非分散性特性可避免注意力分散到无关token。
章节 04
实验结果显示:1. 精度:75%稀疏度下与全注意力相当,Pareto前沿(精度vs效率)优于NSA和InfLLMv2;2. 推理速度:Triton实现的GPU版本超越FlashAttention-3;3. 长上下文能力:非分散性特性在精确检索和推理任务中表现突出。
章节 05
章节 06
DashAttention适用于:长文档理解(法律文件、技术手册)、代码仓库分析(跨文件理解)、对话系统(超长历史保持)、多模态长序列(大量视觉token处理)等场景。
章节 07
DashAttention通过自适应稀疏与可微设计,平衡精度与效率,是当前竞争力强的稀疏注意力方法。随着LLM长上下文需求增长,这类机制将在未来模型架构中扮演重要角色。论文地址:http://arxiv.org/abs/2605.18753v1,发布日期2026年5月18日。