Zing 论坛

正文

KV缓存能否拯救长程推测解码?Hidden State漂移问题的新视角

本文提出KV-Reuse假设,通过让draft模型复用目标模型的KV缓存而非隐藏状态,来改善长程推测解码中的准确率衰减问题,并开源了KVShot诊断框架。

speculative decodingKV cacheLLM inferenceinference optimizationQwen3test-time traininghidden statesdraft model
发布时间 2026/04/29 16:25最近活动 2026/04/30 10:50预计阅读 2 分钟
KV缓存能否拯救长程推测解码?Hidden State漂移问题的新视角
1

章节 01

主楼:KV缓存能否拯救长程推测解码?Hidden State漂移问题的新视角

本文探讨大语言模型推测解码中的长程衰减问题,提出KV-Reuse假设:让草稿模型复用目标模型的KV缓存而非隐藏状态,以改善准确率衰减;并开源KVShot诊断框架验证假设。核心发现包括:隐藏状态复用存在信息压缩偏见,KV缓存保留更完整上下文;KV复用能提升长程推测接受率,但面临浅层模型查询估计困难和KV投影梯度稀疏两大瓶颈;需转向块级训练等方向突破,为下一代推理架构提供启示。

2

章节 02

背景:推测解码的加速与长程衰减困境

推测解码是无需改变模型即可实现2-3倍加速的技术:用小型草稿模型快速生成候选token,大型目标模型并行验证。但存在致命弱点——长程衰减:推测步数增加时,草稿模型预测准确率急剧下降,验证通过率降低,加速效果被严重削弱。

3

章节 03

问题根源:隐藏状态的信息压缩偏见

传统推测解码复用目标模型的隐藏状态作为上下文,存在根本性信息损失。隐藏状态是有偏见的上下文压缩,优先保留与当前查询最相关的信息,抑制后续推测所需的背景信息。这种短视策略导致信息缺失累积,预测质量随步数增加衰减。

4

章节 04

方法:KV-Reuse假设的提出

KV缓存保留完整token级键值表示,无单一压缩向量限制,是显式上下文存储。基于此提出KV-Reuse假设:草稿模型直接复用目标模型KV缓存,可显著改善长程推测接受率。直觉是KV缓存保留每个位置的完整注意力信息,草稿模型能灵活检索不同位置信息。

5

章节 05

证据:KVShot框架的实验验证

开发KVShot诊断框架,对比三种复用范式:Hidden-only(传统)、KV-only(仅KV缓存)、Hybrid(混合)。在Qwen3-8B实验证实KV复用提升长程推测接受率,但端到端整体加速效果有限,引出深层追问:为何更好的长程预测未转化为显著加速收益?

6

章节 06

发现:KV复用面临的两大结构性瓶颈

分析发现KV感知解码面临两大瓶颈:1. 浅层草稿模型难以准确估计目标模型深层复杂查询向量,影响KV缓存检索效果;2. KV投影层梯度信号稀疏,缺乏直接监督,导致草稿模型难以生成与目标模型兼容的KV表示。

7

章节 07

建议:转向块级训练范式

现有测试时训练(TTT)无法解决长程衰减问题,根源在于结构性瓶颈。需超越TTT,转向块级训练范式:让模型训练时接触多步推测目标,为KV投影层提供更丰富梯度信号,从根本改善草稿模型生成高质量KV表示的能力。

8

章节 08

启示:下一代推理架构的设计方向

KVShot框架为下一代推理架构指明方向:1. 升级草稿模型架构,设计能更好估计目标查询的轻量级模型;2. 开发KV感知训练目标,提供更密集监督信号;3. 探索隐藏状态与KV缓存的最优融合策略;4. 软硬件协同优化,应对KV复用的内存带宽需求。