章节 01
MBE协议:大模型KV缓存压缩的标准化评估体系导读
Matched-Budget Evaluation(MBE)协议是针对大语言模型KV缓存压缩方法的标准化固定预算报告协议及开源评估框架,旨在解决当前KV缓存压缩领域评估结果不可比的碎片化问题。其核心理念为在相同保留KV内存预算下比较各方法,通过固定预算阶梯与多维度评估矩阵,让不同研究成果可直接对比。
正文
Matched-Budget Evaluation (MBE) 是一个针对大语言模型KV缓存压缩方法的标准化固定预算报告协议和开源评估框架,旨在解决当前学术界和工业界评估结果不可比的问题。
章节 01
Matched-Budget Evaluation(MBE)协议是针对大语言模型KV缓存压缩方法的标准化固定预算报告协议及开源评估框架,旨在解决当前KV缓存压缩领域评估结果不可比的碎片化问题。其核心理念为在相同保留KV内存预算下比较各方法,通过固定预算阶梯与多维度评估矩阵,让不同研究成果可直接对比。
章节 02
在LLM推理中,KV缓存是内存消耗主要来源,随序列长度线性增长成瓶颈。虽已有量化、剪枝等多种压缩方法,但不同研究使用的模型、任务、指标各异,甚至缺乏系统度量,导致结果无法直接比较,研究者与工程师难以选型。
章节 03
MBE核心是在相同保留KV内存预算下比较方法,非新基准而是轻量级报告层,兼容现有任务套件(如LongBench、GSM8K等)。其定义固定预算阶梯:B50(50%)、B25(25%)、B12(12.5%)、B06(6.25%,可选),便于观察不同压缩强度下的表现曲线。
章节 04
MBE要求每个预算点报告多维度指标:
章节 05
MBE提供适配器式开源框架,研究者仅需实现KVCompressor接口,框架自动处理预算扫描、任务运行与指标收集。内置参考适配器包括KIVI(2-bit量化)、H2O(动态淘汰)、SnapKV、StreamingLLM、PyramidKV等,降低评估门槛。
章节 06
MBE采用开放贡献模式,研究者可提交评估卡片(通过PR),CI自动更新排行榜。快速上手步骤:
run_mbe.py生成评估卡片章节 07
MBE不仅解决KV缓存压缩评估碎片化问题,更代表科研协作新范式。工业界可客观选型,学术界降低评估门槛。随着LLM上下文窗口扩展,KV压缩重要性提升,MBE有望成为该领域基础设施,推动研究更可比较、可复现。