Zing 论坛

正文

FP16 KV缓存的数值等价幻觉:自回归推理中的系统性偏差研究

本文揭示了FP16精度下KV缓存与无缓存重计算之间的数值非等价性。研究发现由于浮点运算的非结合性,两种执行路径会产生确定性的token序列分歧,且缓存开启路径在多数情况下准确率更高。

KV cacheFP16numerical equivalencefloating-point arithmeticnon-associativitytransformer inferenceautoregressive generation
发布时间 2026/04/16 23:59最近活动 2026/04/20 10:52预计阅读 2 分钟
FP16 KV缓存的数值等价幻觉:自回归推理中的系统性偏差研究
1

章节 01

【导读】FP16 KV缓存的数值等价幻觉研究核心观点

本研究挑战了自回归Transformer推理中KV缓存与无缓存重计算数值等价的默认假设,发现FP16精度下两者存在系统性、确定性的token序列分歧,且cache-ON路径在多数测试条件下准确率更高。其根源在于浮点运算的非结合性,这一发现对模型部署和评估具有重要理论与实际意义。

2

章节 02

背景:KV缓存的作用与被忽视的假设

KV缓存是Transformer推理优化的关键技术,通过复用之前token的KV向量提升长序列生成效率。业界长期默认其与无缓存重计算数值等价,但本研究以经验证据表明,FP16下两者存在系统性分歧,该发现打破了这一假设。

3

章节 03

方法:浮点运算非结合性的数学根源

浮点运算因有限精度不满足数学结合律,FP16(16位精度)的舍入误差随运算顺序累积差异。KV缓存与无缓存路径的运算顺序不同(前者拼接构建注意力矩阵,后者完整矩阵乘法),导致FP16下数值分歧。

4

章节 04

实验证据:分歧率与准确率差异

实验设置:模型包括LLaMA-2-7B、Mistral-7B-v0.3(GQA)、Gemma-2-2B;基准为GSM8K;采样策略含贪婪解码及随机采样。 核心发现:1.所有条件下分歧率100%(贪婪解码也存在);2.9中8个条件cache-ON准确率更高;3.FP32下分歧率骤降,token翻转率为0,证实FP16非结合性是主因。

5

章节 05

深入分析:不同架构的分歧模式

  • Mistral-7B(GQA架构):第一层分歧急剧放大,因多查询头共享键头放大FP16误差;
  • Gemma-2-2B:分歧在各层均匀累积,与更大注意力头维度及滑动窗口机制相关。
6

章节 06

激活修补实验:定位因果变量

激活修补整个残差流无法恢复cache-free生成轨迹,表明分歧的因果变量在于状态化的KV缓存本身,而非注意力计算的瞬时误差。

7

章节 07

对LLM推理系统的启示

  1. 重新审视数值等价假设:FP16 KV缓存是有损优化;
  2. 精度与效率权衡:FP16+KV可能是速度与准确性的“甜蜜点”;
  3. 确定性挑战:需重视KV缓存对严格确定性输出的影响。
8

章节 08

结语:效率优化与数值行为的平衡

本研究打破KV缓存数值等价幻觉,揭示FP16浮点非结合性的影响。提醒在追求效率优化时需关注底层数值行为,这是构建可靠、可理解AI系统的必由之路。