章节 01
【导读】FP16 KV缓存的数值等价幻觉研究核心观点
本研究挑战了自回归Transformer推理中KV缓存与无缓存重计算数值等价的默认假设,发现FP16精度下两者存在系统性、确定性的token序列分歧,且cache-ON路径在多数测试条件下准确率更高。其根源在于浮点运算的非结合性,这一发现对模型部署和评估具有重要理论与实际意义。
正文
本文揭示了FP16精度下KV缓存与无缓存重计算之间的数值非等价性。研究发现由于浮点运算的非结合性,两种执行路径会产生确定性的token序列分歧,且缓存开启路径在多数情况下准确率更高。
章节 01
本研究挑战了自回归Transformer推理中KV缓存与无缓存重计算数值等价的默认假设,发现FP16精度下两者存在系统性、确定性的token序列分歧,且cache-ON路径在多数测试条件下准确率更高。其根源在于浮点运算的非结合性,这一发现对模型部署和评估具有重要理论与实际意义。
章节 02
KV缓存是Transformer推理优化的关键技术,通过复用之前token的KV向量提升长序列生成效率。业界长期默认其与无缓存重计算数值等价,但本研究以经验证据表明,FP16下两者存在系统性分歧,该发现打破了这一假设。
章节 03
浮点运算因有限精度不满足数学结合律,FP16(16位精度)的舍入误差随运算顺序累积差异。KV缓存与无缓存路径的运算顺序不同(前者拼接构建注意力矩阵,后者完整矩阵乘法),导致FP16下数值分歧。
章节 04
实验设置:模型包括LLaMA-2-7B、Mistral-7B-v0.3(GQA)、Gemma-2-2B;基准为GSM8K;采样策略含贪婪解码及随机采样。 核心发现:1.所有条件下分歧率100%(贪婪解码也存在);2.9中8个条件cache-ON准确率更高;3.FP32下分歧率骤降,token翻转率为0,证实FP16非结合性是主因。
章节 05
章节 06
激活修补整个残差流无法恢复cache-free生成轨迹,表明分歧的因果变量在于状态化的KV缓存本身,而非注意力计算的瞬时误差。
章节 07
章节 08
本研究打破KV缓存数值等价幻觉,揭示FP16浮点非结合性的影响。提醒在追求效率优化时需关注底层数值行为,这是构建可靠、可理解AI系统的必由之路。