正文

TierKV：跨节点分布式KV缓存系统，让LLM长上下文推理提速7倍

TierKV通过三层架构（GPU热层、LAN冷KV层、WiFi冷SSM层）将驱逐的KV缓存跨网络保留，实现长上下文推理的TTFT从30秒降至4秒，为低成本扩展LLM推理上下文长度提供了新思路。

LLM推理KV缓存分布式系统量化压缩长上下文EXO框架gRPCTurboQuant

发布时间 2026/05/03 15:43最近活动 2026/05/03 15:49预计阅读 3 分钟

章节 01

TierKV：跨节点分布式KV缓存系统，让LLM长上下文推理提速7倍【导读】

TierKV是一款跨节点分布式KV缓存系统，针对LLM长上下文推理中KV缓存驱逐导致冷启动的问题，通过GPU热层、LAN冷KV层、WiFi冷SSM层三层架构，将被驱逐的KV缓存跨网络保留，实现长上下文推理TTFT从30秒降至4秒，提速7倍，为低成本扩展LLM推理上下文长度提供新思路。

章节 02

问题背景：LLM长上下文推理的KV缓存瓶颈

现代LLM推理面临核心矛盾：用户期望处理更长上下文（数万至数十万token），但GPU显存稀缺。KV缓存占满显存后需驱逐旧缓存，导致后续相同提示需重新计算（冷启动）。以Qwen3.6-35B-A3B模型为例，8000token提示需约70GB BF16 KV缓存，单卡易触显存上限；传统量化、分页缓存无法根本解决显存限制。

章节 03

三层架构设计：GPU热层+LAN冷KV层+WiFi冷SSM层

热层（Hot Tier）：GPU上的KVPrefixCache

基于EXO框架实现，驻留GPU显存，显存占用达60%阈值时触发驱逐，被驱逐KV通过钩子函数送往冷层。

冷KV层（Cold KV）：全注意力层跨节点存储

存储完整注意力KV状态，用gRPC协议传至LAN内专用节点（如Mac Pro），传输前经TurboQuant INT8量化（压缩比3.9倍，SNR≥52dB）；Qwen3.6-35B-A3B的10层全注意力KV会被送往此层。

冷SSM层（Cold SSM）：线性注意力层分离存储

将混合架构模型（如Qwen3.6）的30层SSM状态分离存储至WiFi连接节点（如Mac Air），并行传输减少网络瓶颈。

章节 04

性能实测：长上下文推理TTFT从30秒降至4秒，提速7倍

测试配置：DGX Spark推理节点（128GB内存）、Mac Pro M2冷KV层（32GB内存，10GbE LAN）、Mac Air M2冷SSM层（16GB内存，WiFi）。

结果：

8000token提示：冷启动TTFT 30.83秒，冷层恢复仅4.11秒，提速7.3倍
3707token提示：冷启动TTFT 23.78秒，冷层恢复仅4.59秒，提速5.2倍

适用于客服机器人处理长篇历史、代码助手分析大型项目等场景。

章节 05

技术实现细节：量化、批量传输与自动层检测

TurboQuant量化算法

针对KV张量优化：分组量化（每组256浮点数共享缩放因子，max(|x|)/127），BF16转INT8压缩比3.9倍，SNR≥52dB。

批量传输优化

将40次顺序RPC改为两次并发BatchPromote调用，缓存未命中时同时拉取KV和SSM冷层数据，降低网络开销。

自动层类型检测

通过isinstance自动识别全注意力/线性注意力层，无需手动配置索引，提升通用性。

章节 06

部署与使用：多节点配置与集成步骤

部署需至少两台机器（推理+冷存储），三机配置可分离KV/SSM层。步骤：

克隆仓库构建Rust扩展：cd tierkv-core && maturin develop --release
安装Python包：pip install -e .
编辑tierkv.toml设置节点IP和角色
冷层节点启动服务：tierkv vault --port 50051
推理节点集成EXO：tierkv install并添加钩子代码

配置文件可调整内存阈值、量化维度等参数。

章节 07

未来发展方向：持久化、自适应量化等优化

TierKV未来改进方向：

持久化冷存储：支持SQLite/内存映射文件，重启数据不丢失
自适应量化：基于真实KV数据训练TurboQuant码本，提升SNR
LRU驱逐策略：添加冷层容量限制和LRU淘汰
WiFi性能优化：支持LAN连接或多路径传输

当前冷层数据仅存内存，SSM层WiFi连接为瓶颈。

章节 08

总结：TierKV的价值与开源信息

TierKV利用局域网闲置设备内存，将被丢弃的KV转化为可复用资产。测试中227次驱逐有6次成功恢复，每次节省约26秒，大规模部署价值显著。适用于不增加GPU投资却需扩展上下文能力的团队。

项目开源，代码和文档可在GitHub获取。