Zing 论坛

正文

MBE协议:为大模型KV缓存压缩建立标准化评估体系

Matched-Budget Evaluation (MBE) 是一个针对大语言模型KV缓存压缩方法的标准化固定预算报告协议和开源评估框架,旨在解决当前学术界和工业界评估结果不可比的问题。

KV缓存压缩大语言模型评估协议LLM推理优化开源框架标准化评估
发布时间 2026/06/12 07:44最近活动 2026/06/12 07:49预计阅读 2 分钟
MBE协议:为大模型KV缓存压缩建立标准化评估体系
1

章节 01

MBE协议:大模型KV缓存压缩的标准化评估体系导读

Matched-Budget Evaluation(MBE)协议是针对大语言模型KV缓存压缩方法的标准化固定预算报告协议及开源评估框架,旨在解决当前KV缓存压缩领域评估结果不可比的碎片化问题。其核心理念为在相同保留KV内存预算下比较各方法,通过固定预算阶梯与多维度评估矩阵,让不同研究成果可直接对比。

2

章节 02

背景:KV缓存压缩评估的碎片化困境

在LLM推理中,KV缓存是内存消耗主要来源,随序列长度线性增长成瓶颈。虽已有量化、剪枝等多种压缩方法,但不同研究使用的模型、任务、指标各异,甚至缺乏系统度量,导致结果无法直接比较,研究者与工程师难以选型。

3

章节 03

MBE核心思想与标准化预算阶梯

MBE核心是在相同保留KV内存预算下比较方法,非新基准而是轻量级报告层,兼容现有任务套件(如LongBench、GSM8K等)。其定义固定预算阶梯:B50(50%)、B25(25%)、B12(12.5%)、B06(6.25%,可选),便于观察不同压缩强度下的表现曲线。

4

章节 04

MBE的全面评估维度矩阵

MBE要求每个预算点报告多维度指标:

  • 模型维度:覆盖7-8B GQA、7-14B及≥70B模型
  • 任务维度:检索、聚合/追踪、指令遵循、推理、代理/多轮任务
  • 系统维度:峰值内存、吞吐量、首token时间、最大批大小、硬件层级
  • 方法维度:部署前提(免训练/校准/预训练)、可组合性。
5

章节 05

MBE开源评估框架设计

MBE提供适配器式开源框架,研究者仅需实现KVCompressor接口,框架自动处理预算扫描、任务运行与指标收集。内置参考适配器包括KIVI(2-bit量化)、H2O(动态淘汰)、SnapKV、StreamingLLM、PyramidKV等,降低评估门槛。

6

章节 06

MBE的社区贡献与快速上手

MBE采用开放贡献模式,研究者可提交评估卡片(通过PR),CI自动更新排行榜。快速上手步骤:

  1. 用YAML配置方法与运行参数
  2. 运行run_mbe.py生成评估卡片
  3. 渲染卡片并提交PR。
7

章节 07

MBE的意义与未来展望

MBE不仅解决KV缓存压缩评估碎片化问题,更代表科研协作新范式。工业界可客观选型,学术界降低评估门槛。随着LLM上下文窗口扩展,KV压缩重要性提升,MBE有望成为该领域基础设施,推动研究更可比较、可复现。