章节 01
SparDA:解耦稀疏注意力实现5.3倍长文本推理加速(导读)
NVIDIA实验室(NVlabs)于2026年6月3日在arXiv发布SparDA技术(原文标题:SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference,链接:http://arxiv.org/abs/2606.04511v1,开源代码:https://github.com/NVlabs/SparDA)。该技术通过引入第四投影层Forecast实现KV缓存预取,在8B模型上实现1.25倍预填充、1.7倍解码加速,单GPU解码吞吐量提升5.3倍,同时保持甚至略微提升模型精度,为长文本推理场景提供高效解决方案。