Zing 论坛

正文

DashAttention:可微且自适应的稀疏分层注意力机制

本文介绍了 DashAttention,一种利用 α-entmax 变换实现自适应稀疏块选择的高效注意力机制,在保持与全注意力相当精度的同时实现了 75% 的稀疏度,推理速度超越 FlashAttention-3。

注意力机制长上下文稀疏注意力FlashAttentionLLM优化α-entmax
发布时间 2026/05/19 01:59最近活动 2026/05/19 11:27预计阅读 2 分钟
DashAttention:可微且自适应的稀疏分层注意力机制
1

章节 01

DashAttention:可微且自适应的稀疏分层注意力机制

DashAttention是2026年5月提出的创新稀疏分层注意力机制,旨在解决大型语言模型(LLM)长上下文建模中全注意力二次计算与内存开销的瓶颈。其核心优势在于利用α-entmax变换实现自适应稀疏块选择,在保持与全注意力相当精度的同时达到75%稀疏度,推理速度超越FlashAttention-3。

2

章节 02

背景:分层注意力的现状与局限

当前分层注意力方法(如NSA和InfLLMv2)采用两阶段策略:粗粒度选top-k KV块,细粒度在选定token应用softmax注意力。但存在局限:1. 固定数量假设,无法适配不同查询的信息需求差异;2. top-k操作离散非连续,阻断梯度流动,无法端到端优化。

3

章节 03

核心创新:自适应稀疏与可微设计

DashAttention的两大创新:1. α-entmax自适应稀疏选择:根据查询需求动态选择可变数量KV块,避免top-k的一刀切问题;2. 完全可微分层架构:稀疏选择与注意力计算保持梯度连续,支持端到端优化。此外,其非分散性特性可避免注意力分散到无关token。

4

章节 04

实验证据:精度与效率的优异表现

实验结果显示:1. 精度:75%稀疏度下与全注意力相当,Pareto前沿(精度vs效率)优于NSA和InfLLMv2;2. 推理速度:Triton实现的GPU版本超越FlashAttention-3;3. 长上下文能力:非分散性特性在精确检索和推理任务中表现突出。

5

章节 05

技术实现细节

  1. α-entmax变换:softmax广义形式,α在1-2间产生稀疏分布;2. 两阶段流程:粗粒度α-entmax选块,细粒度softmax应用先验权重;3. Triton实现:自定义GPU内核,优化内存层次与计算特性,转化理论优势为实际加速。
6

章节 06

应用场景展望

DashAttention适用于:长文档理解(法律文件、技术手册)、代码仓库分析(跨文件理解)、对话系统(超长历史保持)、多模态长序列(大量视觉token处理)等场景。

7

章节 07

结语:长上下文建模的高效解决方案

DashAttention通过自适应稀疏与可微设计,平衡精度与效率,是当前竞争力强的稀疏注意力方法。随着LLM长上下文需求增长,这类机制将在未来模型架构中扮演重要角色。论文地址:http://arxiv.org/abs/2605.18753v1,发布日期2026年5月18日。