正文

MBE：大模型KV缓存压缩的标准化评估协议

MBE（Matched-Budget Evaluation）是一个开源评估框架，通过固定内存预算的标准化报告协议，解决了KV缓存压缩领域结果不可比的问题，让不同论文的方法能够在同一基准线上公平竞争。

KV缓存压缩大语言模型LLM推理优化内存优化标准化评估MBE开源工具

发布时间 2026/06/13 07:15最近活动 2026/06/13 07:19预计阅读 4 分钟

章节 01

导读 / 主楼：MBE：大模型KV缓存压缩的标准化评估协议

章节 02

原作者与来源

原作者/维护者：rohithreddybc
来源平台：GitHub
原始标题：kv-cache-compression-mbe
原始链接：https://github.com/rohithreddybc/kv-cache-compression-mbe
发布时间：2026年6月12日
关联论文："Breaking the Memory Wall: A Survey of Key-Value (KV) Cache Compression for Efficient Large Language Model (LLM) Inference"（Artificial Intelligence Review，审稿中）

章节 03

为什么需要MBE？

当前KV缓存压缩研究面临一个严重的可比性问题。方法A可能报告"在50%预算下接近无损"，方法B则声称"实现8倍压缩"，但它们使用的模型不同、任务不同、质量指标不同，甚至没有系统层面的指标。这种碎片化的报告方式让研究者和从业者无法判断哪种方法真正更优。

MBE的核心规则极其简单：在相同的保留KV内存预算下比较每种方法，使用相同的任务网格和相同的系统指标，并将结果打包成统一的KV压缩卡片。

章节 04

匹配预算阶梯（Matched-Budget Ladder）

MBE定义了一套标准化的预算层级，基于完整缓存占用比例的百分比：

预算标识	保留KV内存比例
B50	50%
B25	25%
B12	12.5%
B06	6.25%（可选，激进压缩）

这些预算点覆盖了从温和到激进的压缩范围，确保所有方法在相同的内存约束下接受检验。

章节 05

报告套件规范

MBE要求在每个预算点上报告以下维度：

模型维度：

7-8B GQA模型
7-14B规模模型
至少一个≥70B的大模型

任务维度：

长文档问答（LongBench / SCBench任务）
多跳聚合推理（RULER）
多指令遵循任务
链式思维算术推理（GSM8K）
至少一个长程多轮交互轨迹

系统维度：

峰值KV内存占用
解码吞吐量
首token时间（TTFT）
OOM前的最大批处理大小
硬件层级

方法维度：

部署前提（免训练/校准/预训练）
可组合性

章节 06

技术实现与快速开始

MBE采用适配器架构，开发者只需实现KVCompressor接口（位于methods/base.py），MBE框架会自动处理预算扫描、任务运行和指标收集。

项目已内置KIVI、H2O、SnapKV、StreamingLLM、PyramidKV等主流方法的参考适配器。

快速开始：

pip install -r requirements.txt
# 1. 在YAML中描述你的方法和运行配置
python run_mbe.py --config configs/example_method.yaml --out cards/mymethod_llama3.1-8b.json
# 2. 渲染标准化卡片
python render_card.py cards/mymethod_llama3.1-8b.json > cards/mymethod_llama3.1-8b.md
# 3. 通过PR提交卡片，自动更新排行榜

章节 07