章节 01
导读:SinkRouter——长上下文解码加速的新框架
SinkRouter是一种训练无关的选择性路由框架,通过深入理解注意力汇现象的本质(稳定、可达、误差可控的固定点),检测汇信号并跳过近零输出计算,配合硬件感知的Triton内核,在512K上下文长度下实现2.03倍加速,同时保持竞争力准确率,为长上下文大模型部署提供高效解决方案。
正文
SinkRouter提出了一种训练无关的选择性路由框架,通过深入理解注意力汇(Attention Sink)现象的本质,检测汇信号并跳过产生近零输出的计算。配合硬件感知的Triton内核,该方法在512K上下文长度下实现2.03倍加速,同时保持竞争力准确率。
章节 01
SinkRouter是一种训练无关的选择性路由框架,通过深入理解注意力汇现象的本质(稳定、可达、误差可控的固定点),检测汇信号并跳过近零输出计算,配合硬件感知的Triton内核,在512K上下文长度下实现2.03倍加速,同时保持竞争力准确率,为长上下文大模型部署提供高效解决方案。
章节 02
随着LLMs和LMMs能力扩展,长上下文需求增加,但解码时KV缓存的内存访问开销随上下文长度线性/超线性增长,成为推理速度瓶颈,尤其在数十万token场景突出。
章节 03
SinkRouter团队揭示注意力汇是训练中构建的稳定、可达、误差可控的固定点,提升到数学结构高度,为优化提供理论基础。
开发Triton内核:
章节 04
测试基准包括LongBench、InfiniteBench、CVBench、MileBench、MMVP,覆盖纯文本模型(Llama-3.1-8B/70B、Yi-9B-200K)和多模态模型(LLaVA-1.5-7B/13B)。
章节 05
SinkRouter为长上下文大模型实际部署开辟新可能,随着上下文窗口扩展,这类基于机制理解的优化方法将更重要。