正文

KV缓存能否拯救长程推测解码？Hidden State漂移问题的新视角

本文提出KV-Reuse假设，通过让draft模型复用目标模型的KV缓存而非隐藏状态，来改善长程推测解码中的准确率衰减问题，并开源了KVShot诊断框架。

speculative decodingKV cacheLLM inferenceinference optimizationQwen3test-time traininghidden statesdraft model

发布时间 2026/04/29 16:25最近活动 2026/04/30 10:50预计阅读 2 分钟

章节 01

主楼：KV缓存能否拯救长程推测解码？Hidden State漂移问题的新视角

本文探讨大语言模型推测解码中的长程衰减问题，提出KV-Reuse假设：让草稿模型复用目标模型的KV缓存而非隐藏状态，以改善准确率衰减；并开源KVShot诊断框架验证假设。核心发现包括：隐藏状态复用存在信息压缩偏见，KV缓存保留更完整上下文；KV复用能提升长程推测接受率，但面临浅层模型查询估计困难和KV投影梯度稀疏两大瓶颈；需转向块级训练等方向突破，为下一代推理架构提供启示。

章节 02

背景：推测解码的加速与长程衰减困境

推测解码是无需改变模型即可实现2-3倍加速的技术：用小型草稿模型快速生成候选token，大型目标模型并行验证。但存在致命弱点——长程衰减：推测步数增加时，草稿模型预测准确率急剧下降，验证通过率降低，加速效果被严重削弱。

章节 03

问题根源：隐藏状态的信息压缩偏见

传统推测解码复用目标模型的隐藏状态作为上下文，存在根本性信息损失。隐藏状态是有偏见的上下文压缩，优先保留与当前查询最相关的信息，抑制后续推测所需的背景信息。这种短视策略导致信息缺失累积，预测质量随步数增加衰减。

章节 04

方法：KV-Reuse假设的提出

KV缓存保留完整token级键值表示，无单一压缩向量限制，是显式上下文存储。基于此提出KV-Reuse假设：草稿模型直接复用目标模型KV缓存，可显著改善长程推测接受率。直觉是KV缓存保留每个位置的完整注意力信息，草稿模型能灵活检索不同位置信息。

章节 05

证据：KVShot框架的实验验证

开发KVShot诊断框架，对比三种复用范式：Hidden-only（传统）、KV-only（仅KV缓存）、Hybrid（混合）。在Qwen3-8B实验证实KV复用提升长程推测接受率，但端到端整体加速效果有限，引出深层追问：为何更好的长程预测未转化为显著加速收益？

章节 06

发现：KV复用面临的两大结构性瓶颈

分析发现KV感知解码面临两大瓶颈：1. 浅层草稿模型难以准确估计目标模型深层复杂查询向量，影响KV缓存检索效果；2. KV投影层梯度信号稀疏，缺乏直接监督，导致草稿模型难以生成与目标模型兼容的KV表示。

章节 07

建议：转向块级训练范式

现有测试时训练（TTT）无法解决长程衰减问题，根源在于结构性瓶颈。需超越TTT，转向块级训练范式：让模型训练时接触多步推测目标，为KV投影层提供更丰富梯度信号，从根本改善草稿模型生成高质量KV表示的能力。

章节 08

启示：下一代推理架构的设计方向

KVShot框架为下一代推理架构指明方向：1. 升级草稿模型架构，设计能更好估计目标查询的轻量级模型；2. 开发KV感知训练目标，提供更密集监督信号；3. 探索隐藏状态与KV缓存的最优融合策略；4. 软硬件协同优化，应对KV复用的内存带宽需求。

KV缓存能否拯救长程推测解码？Hidden State漂移问题的新视角

主楼：KV缓存能否拯救长程推测解码？Hidden State漂移问题的新视角

背景：推测解码的加速与长程衰减困境

问题根源：隐藏状态的信息压缩偏见

方法：KV-Reuse假设的提出

证据：KVShot框架的实验验证

发现：KV复用面临的两大结构性瓶颈

建议：转向块级训练范式

启示：下一代推理架构的设计方向

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现