正文

DepthKV：按层分配预算，让长上下文推理的 KV 缓存更聪明地瘦身

DepthKV 提出了一种层依赖的 KV 缓存剪枝框架，根据每层对剪枝的敏感度差异来分配全局缓存预算，在相同压缩比下持续优于传统的均匀剪枝方法，为长上下文 LLM 推理的内存优化提供了新思路。

KV缓存长上下文模型推理缓存剪枝DepthKV内存优化注意力机制

发布时间 2026/04/28 00:15最近活动 2026/04/28 11:24预计阅读 2 分钟

章节 01

DepthKV：层依赖KV缓存剪枝框架，优化长上下文推理内存

DepthKV提出层依赖的KV缓存剪枝框架，针对长上下文LLM推理的内存瓶颈，根据Transformer各层对剪枝的敏感度差异分配全局缓存预算，在相同压缩比下持续优于传统均匀剪枝方法，为内存优化提供新思路。

章节 02

长上下文能力（如128K窗口）带来文档理解等应用，但KV缓存内存随序列长度线性增长，成为GPU显存最大消耗者，限制上下文长度和并发请求。

多数剪枝方法采用均匀比例假设，导致不敏感层浪费缓存、敏感层过度剪枝，资源分配非最优。

章节 03

实验发现：不同层对剪枝敏感度差异明显。底层负责局部词法/句法，对远距离token依赖弱；部分中间/高层承担长距离依赖建模，对缓存完整性更敏感。一刀切策略无法最优分配资源。

章节 04

章节 05

章节 06

章节 07

章节 08

DepthKV通过差异化分配缓存预算解决层间剪枝敏感度问题，在不增加运行时开销的前提下提升剪枝效果，是长上下文推理内存优化的值得关注的方案。