Zing 论坛

正文

TierKV:跨节点分布式KV缓存系统,让LLM长上下文推理提速7倍

TierKV通过三层架构(GPU热层、LAN冷KV层、WiFi冷SSM层)将驱逐的KV缓存跨网络保留,实现长上下文推理的TTFT从30秒降至4秒,为低成本扩展LLM推理上下文长度提供了新思路。

LLM推理KV缓存分布式系统量化压缩长上下文EXO框架gRPCTurboQuant
发布时间 2026/05/03 15:43最近活动 2026/05/03 15:49预计阅读 3 分钟
TierKV:跨节点分布式KV缓存系统,让LLM长上下文推理提速7倍
1

章节 01

TierKV:跨节点分布式KV缓存系统,让LLM长上下文推理提速7倍【导读】

TierKV是一款跨节点分布式KV缓存系统,针对LLM长上下文推理中KV缓存驱逐导致冷启动的问题,通过GPU热层、LAN冷KV层、WiFi冷SSM层三层架构,将被驱逐的KV缓存跨网络保留,实现长上下文推理TTFT从30秒降至4秒,提速7倍,为低成本扩展LLM推理上下文长度提供新思路。

2

章节 02

问题背景:LLM长上下文推理的KV缓存瓶颈

现代LLM推理面临核心矛盾:用户期望处理更长上下文(数万至数十万token),但GPU显存稀缺。KV缓存占满显存后需驱逐旧缓存,导致后续相同提示需重新计算(冷启动)。以Qwen3.6-35B-A3B模型为例,8000token提示需约70GB BF16 KV缓存,单卡易触显存上限;传统量化、分页缓存无法根本解决显存限制。

3

章节 03

三层架构设计:GPU热层+LAN冷KV层+WiFi冷SSM层

热层(Hot Tier):GPU上的KVPrefixCache

基于EXO框架实现,驻留GPU显存,显存占用达60%阈值时触发驱逐,被驱逐KV通过钩子函数送往冷层。

冷KV层(Cold KV):全注意力层跨节点存储

存储完整注意力KV状态,用gRPC协议传至LAN内专用节点(如Mac Pro),传输前经TurboQuant INT8量化(压缩比3.9倍,SNR≥52dB);Qwen3.6-35B-A3B的10层全注意力KV会被送往此层。

冷SSM层(Cold SSM):线性注意力层分离存储

将混合架构模型(如Qwen3.6)的30层SSM状态分离存储至WiFi连接节点(如Mac Air),并行传输减少网络瓶颈。

4

章节 04

性能实测:长上下文推理TTFT从30秒降至4秒,提速7倍

测试配置:DGX Spark推理节点(128GB内存)、Mac Pro M2冷KV层(32GB内存,10GbE LAN)、Mac Air M2冷SSM层(16GB内存,WiFi)。

结果:

  • 8000token提示:冷启动TTFT 30.83秒,冷层恢复仅4.11秒,提速7.3倍
  • 3707token提示:冷启动TTFT 23.78秒,冷层恢复仅4.59秒,提速5.2倍

适用于客服机器人处理长篇历史、代码助手分析大型项目等场景。

5

章节 05

技术实现细节:量化、批量传输与自动层检测

TurboQuant量化算法

针对KV张量优化:分组量化(每组256浮点数共享缩放因子,max(|x|)/127),BF16转INT8压缩比3.9倍,SNR≥52dB。

批量传输优化

将40次顺序RPC改为两次并发BatchPromote调用,缓存未命中时同时拉取KV和SSM冷层数据,降低网络开销。

自动层类型检测

通过isinstance自动识别全注意力/线性注意力层,无需手动配置索引,提升通用性。

6

章节 06

部署与使用:多节点配置与集成步骤

部署需至少两台机器(推理+冷存储),三机配置可分离KV/SSM层。步骤:

  1. 克隆仓库构建Rust扩展:cd tierkv-core && maturin develop --release
  2. 安装Python包:pip install -e .
  3. 编辑tierkv.toml设置节点IP和角色
  4. 冷层节点启动服务:tierkv vault --port 50051
  5. 推理节点集成EXO:tierkv install并添加钩子代码

配置文件可调整内存阈值、量化维度等参数。

7

章节 07

未来发展方向:持久化、自适应量化等优化

TierKV未来改进方向:

  • 持久化冷存储:支持SQLite/内存映射文件,重启数据不丢失
  • 自适应量化:基于真实KV数据训练TurboQuant码本,提升SNR
  • LRU驱逐策略:添加冷层容量限制和LRU淘汰
  • WiFi性能优化:支持LAN连接或多路径传输

当前冷层数据仅存内存,SSM层WiFi连接为瓶颈。

8

章节 08

总结:TierKV的价值与开源信息

TierKV利用局域网闲置设备内存,将被丢弃的KV转化为可复用资产。测试中227次驱逐有6次成功恢复,每次节省约26秒,大规模部署价值显著。适用于不增加GPU投资却需扩展上下文能力的团队。

项目开源,代码和文档可在GitHub获取。