Zing 论坛

正文

DUAL-BLADE:边缘设备上的双路径KV缓存卸载框架

本文介绍DUAL-BLADE,一个面向边缘AI系统的双路径KV缓存驻留框架。该框架通过动态分配KV张量到页缓存路径或NVMe直访路径,绕过文件系统开销,实现低延迟直接存储访问,在预填充阶段降低33.1%延迟,解码阶段降低42.4%延迟。

KV缓存边缘AILLM推理NVMe内存卸载边缘计算存储优化低延迟推理
发布时间 2026/04/29 19:44最近活动 2026/04/30 10:27预计阅读 2 分钟
DUAL-BLADE:边缘设备上的双路径KV缓存卸载框架
1

章节 01

DUAL-BLADE:边缘设备KV缓存卸载框架导读

本文介绍DUAL-BLADE,一个面向边缘AI系统的双路径KV缓存驻留框架。该框架通过动态分配KV张量到页缓存路径或NVMe直访路径,绕过文件系统开销,实现低延迟直接存储访问,在预填充阶段降低33.1%延迟,解码阶段降低42.4%延迟,旨在解决边缘设备LLM推理中的内存资源有限问题。

2

章节 02

边缘AI的内存困境与现有方案不足

大型语言模型向边缘设备部署时,边缘设备内存资源有限,KV缓存(Key-Value Cache)是内存消耗大户,长上下文场景下常超可用内存。传统基于文件的卸载设计依赖内核页缓存,在内存压力下导致缓存抖动、不可预测延迟和高软件开销,边缘环境中问题更突出。

3

章节 03

DUAL-BLADE双路径卸载架构设计

DUAL-BLADE核心思想是根据运行时内存可用性动态选择最优访问路径:内存充足时使用页缓存路径(利用OS成熟缓存机制);内存紧张时切换到NVMe直访路径(绕过文件系统,将KV张量直接映射到连续LBA区域,实现低开销直接存储访问),灵活适应资源状况。

4

章节 04

DUAL-BLADE的技术创新点

  1. 绕过文件系统的直接访问:消除路径解析、权限检查、元数据管理、页缓存替换策略等开销;2. 连续LBA映射:实现顺序读取优化、减少寻道时间、简化地址计算;3. 自适应流水线并行:将存储I/O与GPU DMA操作重叠,动态调整流水线深度,隐藏I/O延迟提升吞吐量。
5

章节 05

DUAL-BLADE性能评估结果

评估显示:预填充阶段延迟降低高达33.1%,解码阶段延迟降低高达42.4%;SSD利用率提升2.2倍;这些收益在多种内存预算配置下保持稳定,适合边缘部署。

6

章节 06

DUAL-BLADE对边缘AI部署的意义

  1. 降低硬件成本:让更低配置硬件运行LLM成为可能;2. 改善用户体验:更快首次token生成和流畅流式输出,利好延迟敏感应用;3. 延长设备续航:高效I/O减少存储活跃时间,降低功耗。
7

章节 07

DUAL-BLADE实现与部署建议

  1. 存储设备选择:建议用高并发I/O和低延迟的NVMe SSD;2. 内存与存储权衡:延迟敏感保留更多内存,成本敏感积极卸载;3. 集成现有系统:可与vLLM、TensorRT-LLM等推理框架集成,模块化设计易引入优化。
8

章节 08

DUAL-BLADE的局限与未来方向

当前局限:主要支持单一NVMe设备;未来方向:多存储设备环境下KV缓存分布优化、KV压缩与卸载结合、基于访问模式的预测性预取。