章节 01
DUAL-BLADE:边缘设备KV缓存卸载框架导读
本文介绍DUAL-BLADE,一个面向边缘AI系统的双路径KV缓存驻留框架。该框架通过动态分配KV张量到页缓存路径或NVMe直访路径,绕过文件系统开销,实现低延迟直接存储访问,在预填充阶段降低33.1%延迟,解码阶段降低42.4%延迟,旨在解决边缘设备LLM推理中的内存资源有限问题。
正文
本文介绍DUAL-BLADE,一个面向边缘AI系统的双路径KV缓存驻留框架。该框架通过动态分配KV张量到页缓存路径或NVMe直访路径,绕过文件系统开销,实现低延迟直接存储访问,在预填充阶段降低33.1%延迟,解码阶段降低42.4%延迟。
章节 01
本文介绍DUAL-BLADE,一个面向边缘AI系统的双路径KV缓存驻留框架。该框架通过动态分配KV张量到页缓存路径或NVMe直访路径,绕过文件系统开销,实现低延迟直接存储访问,在预填充阶段降低33.1%延迟,解码阶段降低42.4%延迟,旨在解决边缘设备LLM推理中的内存资源有限问题。
章节 02
大型语言模型向边缘设备部署时,边缘设备内存资源有限,KV缓存(Key-Value Cache)是内存消耗大户,长上下文场景下常超可用内存。传统基于文件的卸载设计依赖内核页缓存,在内存压力下导致缓存抖动、不可预测延迟和高软件开销,边缘环境中问题更突出。
章节 03
DUAL-BLADE核心思想是根据运行时内存可用性动态选择最优访问路径:内存充足时使用页缓存路径(利用OS成熟缓存机制);内存紧张时切换到NVMe直访路径(绕过文件系统,将KV张量直接映射到连续LBA区域,实现低开销直接存储访问),灵活适应资源状况。
章节 04
章节 05
评估显示:预填充阶段延迟降低高达33.1%,解码阶段延迟降低高达42.4%;SSD利用率提升2.2倍;这些收益在多种内存预算配置下保持稳定,适合边缘部署。
章节 06
章节 07
章节 08
当前局限:主要支持单一NVMe设备;未来方向:多存储设备环境下KV缓存分布优化、KV压缩与卸载结合、基于访问模式的预测性预取。