正文

FADE：面向LLM推理的注意力感知分层KV缓存压缩技术

FADE通过频率自适应衰减编码实现3-8倍KV缓存压缩，在保持近乎基线质量的同时，为长上下文推理提供高效的内存优化方案。

KV缓存压缩LLM推理优化注意力机制量化技术RoPEFADE内存优化长上下文

发布时间 2026/04/24 20:13最近活动 2026/04/24 20:20预计阅读 2 分钟

章节 01

FADE技术导读：注意力感知分层KV缓存压缩助力LLM长上下文推理

FADE（Frequency-Adaptive Decay Encoding，频率自适应衰减编码）是面向LLM推理的注意力感知分层KV缓存压缩技术。它通过差异化处理不同token的存储精度，实现3-8倍KV缓存压缩率，同时保持近乎基线的输出质量，有效解决长上下文推理中的内存瓶颈问题。核心创新在于分层缓存架构与灵活的驱逐策略，适配多种应用场景。

章节 02

背景：LLM推理中的KV缓存内存瓶颈

大语言模型（LLM）推理效率受限于KV缓存的内存占用，上下文长度增加时KV缓存呈线性增长，成为长序列推理的主要瓶颈。传统量化方法采用统一压缩策略，忽视了不同token在注意力机制中的差异化重要性，难以平衡压缩率与输出质量。

章节 03

核心机制：三层级缓存架构与驱逐策略

FADE的核心是三层动态缓存架构：

FP16全精度层：保留锚定token（系统指令等）和近期token，确保关键信息完整；
INT4量化层：中间token采用4-bit量化存储，是内存节省的主要来源；
INT2深度压缩层（可选）：部分token进一步压缩至2-bit，适用于低质量敏感度场景。驱逐策略包括H2O（质量最优）、EMA（流式生成）、位置（最简单）、学习策略（智能化）四种，适配不同场景需求。

章节 04

配置预设与模型兼容性

FADE提供三种预设配置：

Safe模式：压缩率3-4倍，贪婪解码匹配率100%，无驱逐；
Balanced模式：压缩率约5倍，使用H2O策略，平衡压缩与质量；
Aggressive模式：压缩率7-8倍，需验证效果。支持主流模型系列（Qwen2/Qwen3、Llama、Mistral等）及多种RoPE类型，已知限制为Qwen3.5/3.6仅能压缩25%全注意力层（DeltaNet层不支持）。

章节 05

性能基准验证

FADE在多个模型上验证了效果：

Qwen2.5-3B-Instruct：基线12.2MiB→分层4.0MiB（-67%），贪婪解码匹配率100%；
Llama-3.2-1B：基线29.9MiB→分层6.3MiB（-79%），输出连贯性保持，驱逐率约29%。结果表明FADE能显著降低内存占用且维持高质量输出。

章节 06

高级功能与使用注意事项

高级功能包括：

会话持久化：保存/恢复压缩缓存；
遥测调试：导出层级分配事件与调试快照；
产品量化（PQ）：替代INT2实现约2bit/element压缩。使用注意：仅H2O prefill需eager模式，建议用auto选择注意力实现；验证Transformers版本（4.45/5.3）；用compressed_storage_bytes()统计KV内存；从batch_size=1开始测试。

章节 07