正文

MBE协议：为大模型KV缓存压缩建立标准化评估体系

Matched-Budget Evaluation (MBE) 是一个针对大语言模型KV缓存压缩方法的标准化固定预算报告协议和开源评估框架，旨在解决当前学术界和工业界评估结果不可比的问题。

KV缓存压缩大语言模型评估协议LLM推理优化开源框架标准化评估

发布时间 2026/06/12 07:44最近活动 2026/06/12 07:49预计阅读 2 分钟

章节 01

MBE协议：大模型KV缓存压缩的标准化评估体系导读

Matched-Budget Evaluation（MBE）协议是针对大语言模型KV缓存压缩方法的标准化固定预算报告协议及开源评估框架，旨在解决当前KV缓存压缩领域评估结果不可比的碎片化问题。其核心理念为在相同保留KV内存预算下比较各方法，通过固定预算阶梯与多维度评估矩阵，让不同研究成果可直接对比。

章节 02

背景：KV缓存压缩评估的碎片化困境

在LLM推理中，KV缓存是内存消耗主要来源，随序列长度线性增长成瓶颈。虽已有量化、剪枝等多种压缩方法，但不同研究使用的模型、任务、指标各异，甚至缺乏系统度量，导致结果无法直接比较，研究者与工程师难以选型。

章节 03

MBE核心思想与标准化预算阶梯

MBE核心是在相同保留KV内存预算下比较方法，非新基准而是轻量级报告层，兼容现有任务套件（如LongBench、GSM8K等）。其定义固定预算阶梯：B50（50%）、B25（25%）、B12（12.5%）、B06（6.25%，可选），便于观察不同压缩强度下的表现曲线。

章节 04

MBE的全面评估维度矩阵

MBE要求每个预算点报告多维度指标：

模型维度：覆盖7-8B GQA、7-14B及≥70B模型
任务维度：检索、聚合/追踪、指令遵循、推理、代理/多轮任务
系统维度：峰值内存、吞吐量、首token时间、最大批大小、硬件层级
方法维度：部署前提（免训练/校准/预训练）、可组合性。

章节 05

MBE开源评估框架设计

MBE提供适配器式开源框架，研究者仅需实现KVCompressor接口，框架自动处理预算扫描、任务运行与指标收集。内置参考适配器包括KIVI（2-bit量化）、H2O（动态淘汰）、SnapKV、StreamingLLM、PyramidKV等，降低评估门槛。

章节 06

MBE的社区贡献与快速上手

MBE采用开放贡献模式，研究者可提交评估卡片（通过PR），CI自动更新排行榜。快速上手步骤：

用YAML配置方法与运行参数
运行run_mbe.py生成评估卡片
渲染卡片并提交PR。

章节 07

MBE的意义与未来展望

MBE不仅解决KV缓存压缩评估碎片化问题，更代表科研协作新范式。工业界可客观选型，学术界降低评估门槛。随着LLM上下文窗口扩展，KV压缩重要性提升，MBE有望成为该领域基础设施，推动研究更可比较、可复现。

MBE协议：为大模型KV缓存压缩建立标准化评估体系

MBE协议：大模型KV缓存压缩的标准化评估体系导读

背景：KV缓存压缩评估的碎片化困境

MBE核心思想与标准化预算阶梯

MBE的全面评估维度矩阵

MBE开源评估框架设计

MBE的社区贡献与快速上手

MBE的意义与未来展望

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎