章节 01
MoE-nD:分层专家混合策略实现14倍KV缓存压缩且性能无损
MoE-nD通过为Transformer不同层定制差异化的KV缓存压缩策略,突破传统均匀压缩方法的瓶颈,在14倍压缩率下仍保持原始模型性能,为长文本大语言模型推理的实用化铺平了道路。
正文
MoE-nD通过为Transformer不同层定制差异化的KV缓存压缩策略,在14倍压缩率下仍保持原始模型性能,突破了传统均匀压缩方法的瓶颈。
章节 01
MoE-nD通过为Transformer不同层定制差异化的KV缓存压缩策略,突破传统均匀压缩方法的瓶颈,在14倍压缩率下仍保持原始模型性能,为长文本大语言模型推理的实用化铺平了道路。
章节 02
随着大语言模型上下文窗口扩展到数十万甚至百万级别,KV缓存的内存占用已成为推理效率的主要瓶颈。现有压缩方法(如Token淘汰、量化、低秩投影等)对所有Transformer层应用相同策略,忽视层间对压缩操作的差异化响应,导致相同内存预算下无法达到最优模型质量。
章节 03
MoE-nD的核心洞察是Transformer不同层对压缩操作的敏感度存在显著差异。技术实现分为两阶段:离线校准阶段用贪心求解器为每一层选择最优(淘汰率、K-bits、V-bits)配置;运行时阶段通过统一注意力补丁应用分层异构淘汰和量化策略,如第一层用90%Token保留率+8-bit量化,深层用70%保留率+4-bit量化。
章节 04
在LongBench-v1的4个任务子集(16K输入长度)中,MoE-nD在14倍压缩(1.9GB→136MB)下完全匹配未压缩基线性能;其他基线方法在相当或更小内存占用下得分低于8/100。AIME推理基准上,MoE-nD比最强均匀量化基线提升6-27个百分点,短文本任务效果不明显,验证其长文本场景价值。
章节 05
MoE-nD揭示神经网络异构性原则:Transformer不同层有独特“个性”,忽视异构性用统一策略会放弃优化空间。这一思路可延伸到剪枝、蒸馏、稀疏化等技术,为相关研究提供可行路径和实证基础。
章节 06
局限:短文本任务(如MATH-500、TREC)无显著提升。未来方向:动态调整策略适应不同输入长度、扩展到注意力头级别、结合推测解码等高效推理技术。